Diferenciación sin matrices: avances en el aprendizaje automático probabilístico

Diferenciación automática ha transformado el desarrollo de modelos de aprendizaje automático al eliminar derivaciones de gradientes complejas que dependen de la aplicación. Esta transformación ayuda a calcular vector-jacobiano y productos vectoriales-jacobianos sin crear la matriz jacobiana completa, que es crucial para ajustar los modelos científicos y probabilísticos de aprendizaje automático. De lo contrario, se necesitaría una columna para cada parámetro de la red neuronal. Hoy en día, cualquiera puede crear algoritmos en torno a matrices de gran tamaño aprovechando este enfoque sin matrices. Sin embargo, el álgebra lineal diferenciable para productos vectoriales jacobianos y operaciones similares ha permanecido en gran medida inexplorada hasta el día de hoy y los métodos tradicionales también tienen algunos defectos.

Los métodos actuales para evaluar funciones de matrices grandes se basan principalmente en iteraciones de Lanczos y Arnoldi, que requieren una buena potencia de cálculo y no están optimizadas para la diferenciación. Los modelos generativos dependían principalmente de la fórmula de cambio de variables, que implica el determinante logarítmico de la matriz jacobiana de una red neuronal. Para optimizar los parámetros del modelo en procesos gaussianos, es importante calcular gradientes de funciones de probabilidad logarítmica que involucran muchas matrices de covarianza grandes. Utilizar métodos que combinen la estimación de trazas aleatorias con la Lanczos La iteración ayuda a aumentar la velocidad de convergencia. Algunos de los trabajos recientes utilizan alguna combinación de estimación de traza estocástica con la Lanczos iteración y acuerda gradientes de determinantes logarítmicos. A diferencia de los procesos gaussianos, trabajos previos sobre aproximaciones de Laplace intentan simplificar la Gauss-Newton generalizado (GGN) matriz utilizando solo ciertos grupos de pesos de red o mediante diversas técnicas algebraicas como aproximaciones diagonales o de rango bajo. Estos métodos facilitan el cálculo automático de determinantes logarítmicos, pero pierden detalles importantes sobre la correlación entre pesos.

Para mitigar estos desafíos y como un paso hacia la exploración del álgebra lineal diferenciable, los investigadores propusieron un nuevo método sin matrices para diferenciar automáticamente funciones de matrices.


Un grupo de investigadores del Universidad Técnica de Dinamarca y Kongens Lyngby, Dinamarcarealizó una investigación detallada y derivó sistemas adjuntos previamente desconocidos para Lanczos y arnoldi iteraciones, implementándolas en jaxy demostró que el código resultante podría competir con difracción cuando se trata de diferenciar PDE, GPyTorch para seleccionar modelos de procesos gaussianos. Además, supera los métodos de factorización estándar para calibrar redes neuronales bayesianas.

En esto, los investigadores se centraron principalmente en algoritmos sin matriz que evitan el almacenamiento directo de matriz y, en cambio, operan a través de productos de vector de matriz. El Lanczos y arnoldi Las iteraciones son populares para la descomposición de matrices sin matrices, lo que produce matrices más pequeñas y estructuradas que se aproximan a la matriz grande, lo que facilita la evaluación de funciones matriciales. El método propuesto puede encontrar eficientemente las derivadas de funciones relacionadas con matrices grandes sin crear la matriz jacobiana completa. Este enfoque sin matrices evalúa productos de vectores jacobianos y de vectores jacobianos, lo que lo hace adecuado para modelos de aprendizaje automático a gran escala. Asimismo, la implementación en jax garantiza un alto rendimiento y escalabilidad.

El método es similar al método adjunto y este nuevo algoritmo es más rápido que propagación hacia atrás y comparte los mismos beneficios de estabilidad que los cálculos originales. El código se probó en tres problemas complejos de aprendizaje automático para ver cómo se compara con los métodos actuales para Procesos gaussianos, solucionadores de ecuaciones diferenciales y redes neuronales bayesianas. Los hallazgos realizados por los investigadores muestran que la integración de las iteraciones de Lanczos y los métodos de Arnoldi mejora en gran medida la eficiencia y la precisión del aprendizaje automático, lo que desbloquea nuevas técnicas de entrenamiento, prueba y calibración y resalta la importancia de las técnicas matemáticas avanzadas para hacer que los modelos de aprendizaje automático funcionen mejor. en diferentes áreas.

En conclusión, el método propuesto mitiga los problemas que enfrenta el método tradicional y no requiere crear matrices grandes para encontrar las diferencias en funciones. Además, aborda y resuelve las dificultades informáticas de los métodos existentes y mejora la eficiencia y precisión de los modelos probabilísticos de aprendizaje automático. Aún así, existen ciertas limitaciones para este método, como los desafíos con la diferenciación del modo directo y la suposición de que la matriz ortogonalizada puede caber en la memoria. El trabajo futuro puede ampliar este marco abordando estas limitaciones y explorando aplicaciones en diversos campos, especialmente en el aprendizaje automático, lo que puede requerir adaptaciones para matrices de valores complejos.


Mira el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.

(Oportunidad de Patrocinio con nosotros) Promocione su investigación/producto/seminario web con más de 1 millón de lectores mensuales y más de 500.000 miembros de la comunidad


Divyesh es pasante de consultoría en Marktechpost. Está cursando un BTech en Ingeniería Agrícola y Alimentaria en el Instituto Indio de Tecnología de Kharagpur. Es un entusiasta de la ciencia de datos y el aprendizaje automático que quiere integrar estas tecnologías líderes en el ámbito agrícola y resolver desafíos.

Escuche nuestros últimos podcasts de IA y vídeos de investigación de IA aquí ➡️

Leer más
Back to top button