De diseños fijos a diseños aleatorios: revelando el factor oculto detrás de los fenómenos de aprendizaje automático moderno

Los fenómenos modernos del aprendizaje automático (ML), como el doble descenso y el sobreajuste benigno, han desafiado las intuiciones estadísticas de larga data, confundiendo a muchos estadísticos con formación clásica. Estos fenómenos contradicen los principios fundamentales que se enseñan en los cursos de introducción a la ciencia de datos, especialmente el sobreajuste y el equilibrio entre sesgo y varianza. El sorprendente rendimiento de los modelos de aprendizaje automático altamente sobreparametrizados y entrenados con pérdida cero contradice la sabiduría convencional sobre la complejidad y generalización de los modelos. Este comportamiento inesperado plantea preguntas críticas sobre la continua relevancia de las preocupaciones estadísticas tradicionales y si los desarrollos recientes en ML representan un cambio de paradigma o revelan enfoques para aprender a partir de datos que antes se pasaban por alto.

Varios investigadores han intentado desentrañar las complejidades de los fenómenos de ML modernos. Los estudios han demostrado que la interpolación benigna y el doble descenso no se limitan al aprendizaje profundo, sino que también ocurren en modelos más simples como los métodos kernel y la regresión lineal. Algunos investigadores han revisado el equilibrio entre sesgo y varianza, notando su ausencia en las redes neuronales profundas y proponiendo descomposiciones actualizadas del error de predicción. Otros han desarrollado taxonomías de modelos de interpolación, distinguiendo entre comportamientos benignos, moderados y catastróficos. Estos esfuerzos tienen como objetivo cerrar la brecha entre las intuiciones estadísticas clásicas y las observaciones modernas de ML, proporcionando una comprensión más completa de la generalización en modelos complejos.

Un investigador de la Universidad de Cambridge ha presentado una nota para comprender las discrepancias entre las intuiciones estadísticas clásicas y los fenómenos modernos de ML como el doble descenso y el sobreajuste benigno. Si bien las explicaciones anteriores se han centrado en la complejidad de los métodos de aprendizaje automático de modelos, la parametrización excesiva y la mayor dimensionalidad de los datos, este estudio explora una razón más simple, aunque a menudo pasada por alto, para los comportamientos observados. Los investigadores destacan que las estadísticas históricamente se centraban en configuraciones de diseño fijas y errores de predicción dentro de la muestra, mientras que el ML moderno evalúa el rendimiento basándose en errores de generalización y predicciones fuera de la muestra.

Los investigadores exploran cómo el paso de configuraciones de diseño fijas a aleatorias afecta el equilibrio entre sesgo y varianza. Los estimadores k-vecino más cercano (k-NN) se utilizan como un ejemplo simple para mostrar que los comportamientos sorprendentes en el sesgo y la varianza no se limitan a los métodos complejos de ML modernos. Además, en el entorno del diseño aleatorio, la intuición clásica de que “la varianza aumenta con la complejidad del modelo, mientras que el sesgo disminuye” no necesariamente se cumple. Esto se debe a que el sesgo ya no disminuye monótonamente a medida que aumenta la complejidad. La idea clave es que no existe una coincidencia perfecta entre los puntos de entrenamiento y los nuevos puntos de prueba en el diseño aleatorio, lo que significa que incluso los modelos más simples pueden no lograr un sesgo cero. Esta diferencia fundamental desafía la comprensión tradicional del equilibrio entre sesgo y varianza y sus implicaciones para la selección de modelos.

El análisis de los investigadores muestra que la intuición tradicional de equilibrio entre sesgo y varianza se desmorona en las predicciones fuera de la muestra, incluso para estimadores simples y procesos de generación de datos. Si bien la noción clásica de que “la varianza aumenta con la complejidad del modelo y el sesgo disminuye” es válida para entornos dentro de la muestra, no necesariamente se aplica a las predicciones fuera de la muestra. Además, hay escenarios en los que el sesgo y la varianza disminuyen a medida que se reduce la complejidad del modelo, lo que contradice la sabiduría convencional. Esta observación es crucial para comprender fenómenos como el doble descenso y el sobreajuste benigno. Los investigadores enfatizan que la sobreparametrización y la interpolación por sí solas no son responsables de desafiar los principios de los libros de texto.

En conclusión, el investigador de la Universidad de Cambridge destaca un factor crucial, aunque a menudo pasado por alto, en el surgimiento de fenómenos de aprendizaje automático moderno aparentemente contrarios a la intuición: el cambio de la evaluación del rendimiento del modelo basada en el error de predicción en la muestra a la generalización a nuevos datos. Esta transición de diseños fijos a diseños aleatorios altera fundamentalmente el equilibrio clásico entre sesgo y varianza, incluso para estimadores k-NN simples en regímenes subparametrizados. Este hallazgo desafía la idea de que los datos de alta dimensión, los estimadores de ML complejos y la parametrización excesiva son los únicos responsables de estos comportamientos sorprendentes. Esta investigación proporciona información valiosa sobre el aprendizaje y la generalización en los panoramas de ML contemporáneos.


Mira el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 50.000 ml

¿Está interesado en promocionar su empresa, producto, servicio o evento ante más de 1 millón de desarrolladores e investigadores de IA? ¡Colaboremos!


Sajjad Ansari es un estudiante de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA centrándose en comprender el impacto de las tecnologías de IA y sus implicaciones en el mundo real. Su objetivo es articular conceptos complejos de IA de una manera clara y accesible.

Leer más
Back to top button