AMPLIFY: Aprovechamiento de la calidad de los datos a escala para el desarrollo eficiente de modelos de lenguaje de proteínas

Los modelos de lenguaje de proteínas (pLM), entrenados en bases de datos de secuencias de proteínas, tienen como objetivo capturar el panorama de aptitud para tareas de diseño y predicción de propiedades. Si bien escalar estos modelos se ha vuelto común, se supone que las bases de datos de origen reflejan con precisión el panorama de aptitud física, lo que puede no ser cierto. Comprender la función de las proteínas estuvo históricamente ligado a la predicción de la estructura basada en modelos físicos. Sin embargo, a medida que evolucionaron las técnicas de aprendizaje automático, han demostrado ser más efectivas para modelar comportamientos dinámicos de proteínas. Al tratar las secuencias de proteínas como lenguaje natural, los pLM pueden capturar información estructural sin depender únicamente de bases de datos estructurales, lo que revela relaciones funcionales más profundas.

Investigadores de Chandar Lab, Mila y Amgen desarrollaron AMPLIFY, un pLM eficiente que reduce significativamente el costo de capacitación e implementación en comparación con modelos anteriores. A diferencia de los modelos a gran escala como ESM2 y ProGen2, AMPLIFY se centra en mejorar la calidad de los datos en lugar del tamaño del modelo, logrando un rendimiento superior con 43 veces menos parámetros. El equipo evaluó tres estrategias (calidad, cantidad y pasos de capacitación de los datos) y descubrió que mejorar la calidad de los datos por sí solo puede crear modelos de última generación. AMPLIFY es de código abierto, incluido su código base, datos y modelos, para hacer que el desarrollo de pLM sea más accesible.

Los conjuntos de secuencias de datos de validación para pLM se crearon combinando secuencias de proteoma de referencia con secuencias del Espacio de anticuerpos observado (OAS) y la base de datos de Clasificación estructural de proteínas (SCOP). El objetivo era permitir la validación de tareas específicas, en particular para regiones determinantes de complementariedad de secuencias de anticuerpos y tareas de secuencia a estructura. Se seleccionaron proteomas de referencia de alta calidad en función de sus puntuaciones de integridad BUSCO, lo que garantiza la representación en Bacteria, Archaea y Eukarya. Se excluyeron las secuencias que carecían de validación experimental o que contenían aminoácidos no canónicos. Los conjuntos de validación finales incluyeron 10.000 secuencias seleccionadas al azar de cada fuente después de agruparlas para reducir la redundancia.

Para los datos de entrenamiento, se procesaron las bases de datos UniRef, OAS, SCOP y UniProt para eliminar secuencias con aminoácidos ambiguos y aquellos similares a las secuencias del conjunto de validación. El conjunto de datos de entrenamiento utilizó específicamente secuencias de anticuerpos de cadena pesada y ligera pareadas formateadas con un token de ruptura de cadena. La arquitectura del modelo AMPLIFY incorporó mejoras recientes de modelos de lenguaje grandes en el procesamiento del lenguaje natural, incluida una función de activación SwiGLU y un mecanismo de atención eficiente en memoria. El proceso de optimización implicó AdamW mejorado y un programador de recocido de coseno, con entrenamiento realizado con menor precisión utilizando técnicas avanzadas como DeepSpeed. El vocabulario se simplificó para adaptarse mejor a las proteínas multicadena y las secuencias de más de 512 residuos se truncaron durante el entrenamiento para mejorar la eficiencia. Después del entrenamiento inicial, la longitud del contexto se amplió a 2048 residuos, seguido de pasos de entrenamiento adicionales para ambos modelos AMPLIFY.

El estudio comparó el impacto de ajustar el tamaño de pLM con factores como el contenido, el tamaño y la duración del conjunto de datos de entrenamiento. Los autores mejoraron su conjunto de datos de validación utilizando secuencias de UniRef100, pares de anticuerpos de OAS y dominios SCOP, con el objetivo de obtener una muestra más representativa. Descubrieron que la curación de datos mejora significativamente el rendimiento del modelo, independientemente del tamaño del modelo o la duración del entrenamiento. Contrariamente a hallazgos anteriores, observaron que el rendimiento mejoró más allá de las 500.000 actualizaciones, lo que sugiere que utilizar diversos datos de entrenamiento es crucial. Además, los modelos más grandes corren el riesgo de sobreadaptarse, lo que indica la necesidad de un reentrenamiento regular para adaptarse a la evolución de la calidad y cantidad de los datos.

Los avances recientes en ML se han centrado en escalar redes neuronales, particularmente en modelos de lenguaje para texto y proteínas. Esta tendencia ha hecho que la formación de modelos de última generación sea prohibitivamente costosa para muchos investigadores, lo que a menudo ha dado lugar a un acceso restringido. Sin embargo, este estudio sugiere que la experiencia de los científicos de proteínas puede mejorar el proceso de curación, generando un rendimiento competitivo sin la necesidad de una escala masiva. La curación eficaz depende de una comprensión comunitaria de las proteínas, que sigue siendo limitada. El estudio enfatiza la importancia de la experiencia colaborativa y aboga por métodos de código abierto para facilitar la curación de datos iterativos y el desarrollo de modelos, lo que en última instancia contribuye a los avances terapéuticos.


Mira el Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro SubReddit de 52k+ ML.

Estamos invitando a startups, empresas e instituciones de investigación que estén trabajando en modelos de lenguajes pequeños a participar en este próximo Revista/Informe ‘Small Language Models’ de Marketchpost.com. Esta revista/informe se publicará a finales de octubre o principios de noviembre de 2024. ¡Haga clic aquí para programar una llamada!


A Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en IIT Madras, le apasiona aplicar la tecnología y la inteligencia artificial para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.

Leer más
Back to top button