Una inmersión profunda en modelos de lenguajes pequeños: alternativas eficientes a modelos de lenguajes grandes para procesamiento en tiempo real y tareas especializadas
La IA ha logrado avances significativos en el desarrollo de grandes modelos de lenguaje (LLM) que destacan en tareas complejas como la generación de texto, el resumen y la IA conversacional. Modelos como LaPM 540B y Llama-3.1 405B demuestran capacidades avanzadas de procesamiento del lenguaje, pero sus demandas computacionales limitan su aplicabilidad en entornos del mundo real con recursos limitados. Estos LLM suelen estar basados en la nube y requieren una gran cantidad de hardware y memoria GPU, lo que genera preocupaciones sobre la privacidad e impide la implementación inmediata en el dispositivo. Por el contrario, los modelos de lenguajes pequeños (SLM) se están explorando como una alternativa eficiente y adaptable, capaz de realizar tareas de dominios específicos con menores requisitos computacionales.
El principal desafío de los LLM, tal como lo abordan los SLM, es su alto costo computacional y latencia, particularmente para aplicaciones especializadas. Por ejemplo, modelos como Llama-3.1, que contienen 405 mil millones de parámetros, requieren más de 200 GB de memoria GPU, lo que los hace poco prácticos para su implementación en dispositivos móviles o sistemas perimetrales. En escenarios en tiempo real, estos modelos sufren de una alta latencia; procesar 100 tokens en un procesador móvil Snapdragon 685 con el modelo Llama-2 7B, por ejemplo, puede tardar hasta 80 segundos. Estos retrasos obstaculizan las aplicaciones en tiempo real, lo que las hace inadecuadas para entornos como la atención sanitaria, las finanzas y los sistemas de asistencia personal que exigen respuestas inmediatas. Los gastos operativos asociados con los LLM también restringen su uso, ya que su ajuste para campos especializados como la atención médica o el derecho requiere recursos significativos, lo que limita la accesibilidad para organizaciones sin grandes presupuestos computacionales.
Actualmente, varios métodos abordan estas limitaciones, incluidas las API basadas en la nube, el procesamiento por lotes de datos y la poda de modelos. Sin embargo, estas soluciones a menudo se quedan cortas, ya que deben aliviar por completo los problemas de alta latencia, la dependencia de una infraestructura extensa y los problemas de privacidad. Técnicas como la poda y la cuantificación pueden reducir el tamaño del modelo, pero con frecuencia disminuyen la precisión, lo que es perjudicial para aplicaciones de alto riesgo. La ausencia de soluciones escalables y de bajo costo para ajustar los LLM para dominios específicos enfatiza aún más la necesidad de un enfoque alternativo para ofrecer un rendimiento específico sin costos prohibitivos.
Investigadores de la Universidad Estatal de Pensilvania, la Universidad de Pensilvania, UTHealth Houston, Amazon y el Instituto Politécnico Rensselaer realizaron una encuesta exhaustiva sobre SLM y examinaron un marco sistemático para desarrollar SLM que equilibren la eficiencia con capacidades similares a las de LLM. Esta investigación agrega avances en el ajuste, el intercambio de parámetros y la destilación de conocimientos para crear modelos diseñados para casos de uso eficientes y específicos de un dominio. Las arquitecturas compactas y las técnicas avanzadas de procesamiento de datos permiten que los SLM funcionen en entornos de bajo consumo, lo que los hace accesibles para aplicaciones en tiempo real en dispositivos perimetrales. Las colaboraciones institucionales contribuyeron a definir y categorizar los SLM, garantizando que la taxonomía admita la implementación en entornos con poca memoria y recursos limitados.
Los métodos técnicos propuestos en esta investigación son integrales para optimizar el desempeño del SLM. Por ejemplo, la encuesta destaca la atención de consultas agrupadas (GQA), la atención latente de múltiples cabezas (MLA) y la atención Flash como modificaciones esenciales eficientes en la memoria que agilizan los mecanismos de atención. Estas mejoras permiten a los SLM mantener un alto rendimiento sin requerir la gran cantidad de memoria típica de los LLM. Además, el intercambio de parámetros y las técnicas de adaptación de bajo rango garantizan que los SLM puedan gestionar tareas complejas en campos especializados como la atención sanitaria, las finanzas y la atención al cliente, donde la respuesta inmediata y la privacidad de los datos son cruciales. El énfasis del marco en la calidad de los datos mejora aún más el rendimiento del modelo, incorporando filtrado, deduplicación y estructuras de datos optimizadas para mejorar la precisión y la velocidad en contextos de dominios específicos.
Los resultados empíricos subrayan el potencial de rendimiento de los SLM, ya que pueden lograr una eficiencia cercana a la de los LLM en aplicaciones específicas con latencia y uso de memoria reducidos. En los puntos de referencia de aplicaciones de asistencia sanitaria, finanzas y asistentes personalizados, los SLM muestran reducciones sustanciales de latencia y una mayor privacidad de los datos debido al procesamiento local. Por ejemplo, las mejoras en la latencia en la atención médica y el manejo seguro de datos locales ofrecen una solución eficiente para el procesamiento de datos en el dispositivo y la protección de la información confidencial del paciente. Los métodos utilizados en la capacitación y optimización de SLM permiten que estos modelos retengan hasta el 90 % de la precisión de LLM en aplicaciones de dominios específicos, un logro notable dada la reducción en el tamaño del modelo y los requisitos de hardware.
Conclusiones clave de la investigación:
- Eficiencia computacional: los SLM funcionan con una fracción de la memoria y la potencia de procesamiento requeridas por los LLM, lo que los hace adecuados para dispositivos con hardware limitado, como teléfonos inteligentes y dispositivos IoT.
- Adaptabilidad específica del dominio: con optimizaciones específicas, como ajustes y uso compartido de parámetros, los SLM retienen aproximadamente el 90 % del rendimiento del LLM en dominios especializados, incluidos la atención médica y las finanzas.
- Reducción de latencia: en comparación con los LLM, los SLM reducen los tiempos de respuesta en más de un 70 %, proporcionando capacidades de procesamiento en tiempo real esenciales para aplicaciones perimetrales y escenarios sensibles a la privacidad.
- Privacidad y seguridad de los datos: SLM permite el procesamiento local, lo que reduce la necesidad de transferir datos a servidores en la nube y mejora la privacidad en aplicaciones de alto riesgo como la atención médica y las finanzas.
- Rentabilidad: al reducir los requisitos computacionales y de hardware, los SLM presentan una solución factible para organizaciones con recursos limitados, democratizando el acceso a modelos de lenguaje impulsados por IA.
En conclusión, la encuesta sobre modelos de lenguajes pequeños presenta un marco viable que aborda los problemas críticos de la implementación de LLM en entornos con recursos limitados. El enfoque SLM propuesto ofrece un camino prometedor para integrar capacidades avanzadas de procesamiento del lenguaje en dispositivos de bajo consumo, ampliando el alcance de la tecnología de IA en diversos campos. Al optimizar la latencia, la privacidad y la eficiencia computacional, los SLM brindan una solución escalable para aplicaciones del mundo real donde los LLM tradicionales no son prácticos, lo que garantiza una aplicabilidad y sostenibilidad más amplia de los modelos de lenguaje en la industria y la investigación.
Mira el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.
(Revista/Informe AI) Lea nuestro último informe sobre ‘MODELOS DE LENGUAS PEQUEÑAS‘
Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.
Escuche nuestros últimos podcasts de IA y vídeos de investigación de IA aquí ➡️