Investigadores de Cambridge brindan información empírica sobre el aprendizaje profundo a través de la lente pedagógica de un modelo telescópico que utiliza aproximaciones de primer orden
Las redes neuronales siguen siendo un enigma seductor hasta el día de hoy. Por un lado, son responsables de automatizar tareas de enormes proporciones en campos como la visión de imágenes, la comprensión del lenguaje natural y la generación de texto; sin embargo, por otra parte, sus comportamientos subyacentes y sus procesos de toma de decisiones siguen siendo difíciles de alcanzar. Las redes neuronales muchas veces exhiben un comportamiento contraintuitivo y anormal, como un desempeño de generalización no monótono, lo que restablece las dudas sobre su calibre. Incluso XGBoost y Random Forests superan a las redes neuronales en datos estructurados. Además, las redes neuronales a menudo se comportan como modelos lineales, lo que genera gran confusión, dado que son famosas por su capacidad para modelar no linealidades complejas. Estas cuestiones han motivado a los investigadores a decodificar las redes neuronales.
Investigadores de la Universidad de Cambridge presentaron un modelo sencillo para proporcionar conocimientos empíricos sobre las redes neuronales. Este trabajo sigue un enfoque híbrido para aplicar principios de investigación teórica a modelos simples pero precisos de redes neuronales para la investigación empírica. Inspirándose en el trabajo de Neural Tangent Kernels, los autores consideran un modelo que utiliza aproximaciones de primer orden para las actualizaciones funcionales realizadas durante el entrenamiento. Además, en esta definición, el modelo se incrementa al ampliar las aproximaciones a las actualizaciones individuales realizadas durante el entrenamiento para replicar el comportamiento de redes prácticas completamente entrenadas. Todo el sistema para realizar investigaciones empíricas podría articularse como una lente pedagógica para mostrar cómo las redes neuronales a veces se generalizan de manera aparentemente impredecible. La investigación también propone métodos para construir y extraer métricas para predecir y comprender este comportamiento anormal.
Los autores presentan tres estudios de caso en este artículo para la investigación empírica. En primer lugar, el modelo telescópico propuesto extiende una métrica existente para medir la complejidad del modelo a las redes neuronales. El propósito de esta incorporación fue comprender las curvas de sobreajuste y el comportamiento generalizado de las redes, especialmente en datos nuevos cuando el modelo tuvo un rendimiento inferior. Sus hallazgos incluyeron el fenómeno del doble descenso y la asimilación vinculados a cambios en la complejidad del modelo durante el entrenamiento y las pruebas. El doble descenso básicamente explica el rendimiento no monótono del modelo telescópico cuando su rendimiento de prueba empeoró por primera vez (sobreajuste normal), pero luego mejoró al aumentar la complejidad del modelo. Al asimilar, incluso después de lograr un rendimiento perfecto en los datos de entrenamiento, un modelo puede continuar mejorando significativamente su rendimiento en los datos de prueba después de un largo período. El modelo telescópico cuantifica la complejidad del aprendizaje, el doble descenso y la asimilación durante el entrenamiento y establece que la causa de estos efectos es la divergencia entre el entrenamiento y la complejidad de la prueba.
El segundo estudio de caso explica el bajo rendimiento de las redes neuronales en relación con XGBoost en datos tabulares. Las redes neuronales luchan con datos tabulares, particularmente aquellos con irregularidades, a pesar de su notable versatilidad. Aunque ambos modelos exhiben comportamientos de optimización similares, XGBoost gana la carrera manejando mejor las irregularidades y la escasez de funciones. En el estudio, el modelo telescópico y XGBoost usaron núcleos, pero se estableció que el núcleo tangente de las redes neuronales no tenía límites, lo que significaba que cada punto podía usarse de manera diferente, mientras que los núcleos XGBoost se comportaban de manera más predecible cuando se exponían a datos de prueba.
El último caso analizó la estabilización del gradiente y el promedio de peso. El modelo reveló que a medida que avanza el entrenamiento, las actualizaciones de gradiente se vuelven más alineadas, lo que genera superficies de pérdida más suaves. Mostraron cómo la estabilización del gradiente durante el entrenamiento contribuye a la conectividad del modo lineal y al promedio de peso, lo que se ha vuelto muy exitoso.
El modelo telescópico propuesto para el aprendizaje de redes neuronales ayudó a comprender varios fenómenos desconcertantes en el aprendizaje profundo a través de investigaciones empíricas. Este trabajo impulsaría más esfuerzos para comprender el misterio de las redes neuronales tanto empírica como teóricamente.
Mira el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.
(Revista/Informe AI) Lea nuestro último informe sobre ‘MODELOS DE LENGUAS PEQUEÑAS‘
Adeeba Alam Ansari actualmente está cursando su doble titulación en el Instituto Indio de Tecnología (IIT) Kharagpur, donde obtuvo una licenciatura en Ingeniería Industrial y una maestría en Ingeniería Financiera. Con un gran interés en el aprendizaje automático y la inteligencia artificial, es una lectora ávida y una persona curiosa. Adeeba cree firmemente en el poder de la tecnología para empoderar a la sociedad y promover el bienestar a través de soluciones innovadoras impulsadas por la empatía y una profunda comprensión de los desafíos del mundo real.
Escuche nuestros últimos podcasts de IA y vídeos de investigación de IA aquí ➡️