Investigadores de KAIST y Google AI presentan la decodificación paralela en bloques (BCD): un método de inteligencia artificial para recuperar algoritmos para mejorar la eficiencia y la fluidez en modelos de lenguaje

Los avances recientes en los modelos de lenguaje autorregresivos han provocado una transformación asombrosa en el campo del procesamiento del lenguaje natural (PLN). Estos modelos, como GPT y otros, han mostrado un rendimiento excelente en tareas de creación de texto, incluidas la respuesta a preguntas y el resumen. Sin embargo, su alta latencia de inferencia plantea una barrera importante para su aplicación general, particularmente en modelos muy profundos con cientos de miles de millones de parámetros. Este retraso se debe a su naturaleza porque los modelos autorregresivos generan texto un token a la vez en una serie. Esto conduce a un aumento significativo de la demanda informática, lo que restringe la capacidad de los modelos para implementarse en tiempo real.

Para abordar este problema, un equipo de investigadores de KAIST y Google ha desarrollado Blockwise Parallel Decoding (BPD), un método diseñado para acelerar la inferencia de estos modelos. Conocido como borrador en bloque, BPD permite la predicción simultánea de varios tokens futuros, a diferencia de los métodos autorregresivos típicos. Múltiples cabezales de predicción construyen estos borradores de bloques en paralelo, y luego el modelo autorregresivo selecciona y acepta condicionalmente los tokens que mejor se ajustan.

Debido a que se presentan varios tokens simultáneamente, esta técnica acelera en gran medida la velocidad de inferencia al disminuir la cantidad de tiempo dedicado a esperar predicciones secuenciales de tokens. Pero el BPD presenta su propio conjunto de dificultades, especialmente a la hora de garantizar que los borradores en bloque sean lo suficientemente precisos y bien organizados para que el modelo los acepte.

El equipo ha compartido dos formas clave mediante las cuales se ha avanzado en la efectividad de los borradores en bloque. Primero se examinaron las distribuciones de tokens generadas por los distintos cabezales de predicción en BPD. El objetivo de este análisis es comprender mejor cómo el modelo genera simultáneamente varios tokens y cómo optimizar estas predicciones para lograr una mayor fluidez y precisión. A través del análisis de estas distribuciones de tokens, se pueden detectar tendencias o irregularidades que podrían afectar el rendimiento del draft del bloque.

En segundo lugar, utilizando esta investigación, el estudio crea algoritmos que mejoran los borradores de bloques. El equipo ha sugerido específicamente emplear modelos de lenguaje neuronal y modelos de n-gramas para mejorar la calidad de los borradores de bloques antes de la verificación del modelo autorregresivo. Mientras que los modelos de lenguaje neuronal proporcionan un conocimiento del contexto más sofisticado, lo que ayuda a que los borradores de bloques se ajusten más a las expectativas del modelo, los modelos de n-gramas ayudan a garantizar la coherencia local en las predicciones de tokens.

Las pruebas del estudio arrojaron resultados alentadores, con borradores de bloque mejorados que aumentan la eficiencia del bloque, que es una medida de cuántos tokens del borrador de bloque son finalmente aceptados por el modelo autorregresivo entre un 5% y un 21%. Estos avances se mostraron en varios conjuntos de datos diferentes, lo que indica la resiliencia del método.

El equipo ha resumido sus principales contribuciones de la siguiente manera.

El estudio analiza cómo se comportan los cabezales de predicción en modelos de lenguaje paralelo (BPD) por bloques, y encuentra evidencia de una caída de la confianza en las predicciones para tokens posteriores y una repetición significativa de tokens consecutivos (20% a 75%). Esto llama la atención sobre la mala calidad del borrador del bloque.

El equipo propuso la noción de eficiencia del bloque top-k de Oracle. Demuestran que la eficiencia del bloque se puede aumentar considerablemente reduciendo la repetición y la incertidumbre y teniendo en cuenta los k tokens más probables para cada cabeza.

Se han introducido dos algoritmos: la nueva puntuación global utilizando modelos de n-gramas, que vuelven a puntuar de manera eficiente muchos borradores candidatos, y la nueva puntuación local utilizando LM neuronales, que refina los borradores en bloque para lograr fluidez y coherencia. Estas técnicas maximizan la utilización de recursos al tiempo que aumentan la eficiencia del bloque hasta en un 21,3%.

Mira el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro SubReddit de más de 50.000 ml

¿Quiere estar frente a más de 1 millón de lectores de IA? Trabaja con nosotros aquí

Tanya Malhotra es estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, y cursa BTech en Ingeniería en Ciencias de la Computación con especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la Ciencia de Datos con buen pensamiento analítico y crítico, junto con un ardiente interés en adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de manera organizada.