Una técnica popular para hacer que la IA sea más eficiente tiene inconvenientes

Una de las técnicas más utilizadas para hacer que los modelos de IA sean más eficientes, la cuantificación, tiene límites, y la industria podría estar acercándose rápidamente a ellos.

En el contexto de la IA, la cuantificación se refiere a reducir la cantidad de bits (las unidades más pequeñas que una computadora puede procesar) necesarios para representar información. Considere esta analogía: cuando alguien pregunta la hora, probablemente diría “mediodía”, no “oh, mil doscientos, un segundo y cuatro milisegundos”. Eso es cuantizar; Ambas respuestas son correctas, pero una es un poco más precisa. La precisión que realmente necesitas depende del contexto.

Los modelos de IA constan de varios componentes que se pueden cuantificar; en particular, parámetros, las variables internas que utilizan los modelos para hacer predicciones o decisiones. Esto es conveniente, considerando que los modelos realizan millones de cálculos cuando se ejecutan. Los modelos cuantificados con menos bits que representan sus parámetros son menos exigentes matemáticamente y, por tanto, computacionalmente. (Para ser claros, este es un proceso diferente de la “destilación”, que es una poda de parámetros más compleja y selectiva).

Pero la cuantificación puede tener más compensaciones de las que se suponía anteriormente.

El modelo cada vez más reducido

Según un estudio realizado por investigadores de Harvard, Stanford, MIT, Databricks y Carnegie Mellon, los modelos cuantificados funcionan peor si la versión original no cuantificada del modelo se entrenó durante un largo período con una gran cantidad de datos. En otras palabras, en cierto punto, puede que sea mejor simplemente entrenar un modelo más pequeño en lugar de cocinar uno grande.

Esto podría significar malas noticias para las empresas de IA que entrenan modelos extremadamente grandes (conocidos por mejorar la calidad de las respuestas) y luego los cuantifican en un esfuerzo por hacer que su servicio sea menos costoso.

Los efectos ya se están manifestando. Hace unos meses, desarrolladores y académicos informaron que la cuantificación del modelo Llama 3 de Meta tendía a ser “más dañina” en comparación con otros modelos, potencialmente debido a la forma en que fue entrenado.

“En mi opinión, el coste número uno para todos en la IA es y seguirá siendo la inferencia, y nuestro trabajo muestra que una forma importante de reducirlo no funcionará para siempre”, dijo Tanishq Kumar, estudiante de matemáticas de Harvard y primer autor del estudio. papel, dijo a TechCrunch.

Contrariamente a la creencia popular, la inferencia de modelos de IA (ejecutar un modelo, como cuando ChatGPT responde una pregunta) suele ser más costosa en conjunto que el entrenamiento de modelos. Consideremos, por ejemplo, que Google gastó aproximadamente 191 millones de dólares para entrenar uno de sus modelos emblemáticos Gemini: sin duda una suma principesca. Pero si la empresa utilizara un modelo para generar respuestas de sólo 50 palabras a la mitad de todas las consultas de Búsqueda de Google, gastaría aproximadamente 6 mil millones de dólares al año.

Los principales laboratorios de IA han adoptado modelos de entrenamiento en conjuntos de datos masivos bajo el supuesto de que la “ampliación” (aumentar la cantidad de datos y computación utilizados en el entrenamiento) conducirá a una IA cada vez más capaz.

Por ejemplo, Meta entrenó a Llama 3 con un conjunto de 15 billones de tokens. (Los tokens representan bits de datos sin procesar; 1 millón de tokens equivale a unas 750.000 palabras). La generación anterior, Llama 2, fue entrenada con “sólo” 2 billones de tokens.

La evidencia sugiere que la ampliación eventualmente produce retornos decrecientes; Según se informa, Anthropic y Google entrenaron recientemente modelos enormes que no cumplieron con las expectativas de referencia internas. Pero hay pocas señales de que la industria esté lista para alejarse significativamente de estos arraigados enfoques de escalamiento.

¿Qué tan preciso, exactamente?

Entonces, si los laboratorios se muestran reacios a entrenar modelos en conjuntos de datos más pequeños, ¿existe alguna manera de hacer que los modelos sean menos susceptibles a la degradación? Probablemente. Kumar dice que él y sus coautores descubrieron que entrenar modelos con “baja precisión” puede hacerlos más robustos. Tengan paciencia con nosotros por un momento mientras nos sumergimos un poco.

“Precisión” aquí se refiere al número de dígitos que un tipo de datos numéricos puede representar con precisión. Los tipos de datos son colecciones de valores de datos, generalmente especificados por un conjunto de valores posibles y operaciones permitidas; el tipo de datos FP8, por ejemplo, utiliza sólo 8 bits para representar un número de coma flotante.

La mayoría de los modelos actuales se entrenan con 16 bits o “media precisión” y se “cuantizan después del entrenamiento” con una precisión de 8 bits. Ciertos componentes del modelo (por ejemplo, sus parámetros) se convierten a un formato de menor precisión a costa de cierta precisión. Piense en ello como si hiciera los cálculos con unos pocos decimales y luego redondeara a la décima más cercana, lo que a menudo le brinda lo mejor de ambos mundos.

Los proveedores de hardware como Nvidia están presionando para lograr una menor precisión en la inferencia de modelos cuantificados. El nuevo chip Blackwell de la compañía admite una precisión de 4 bits, específicamente un tipo de datos llamado FP4; Nvidia ha presentado esto como una bendición para los centros de datos con limitaciones de memoria y energía.

Pero puede que no sea deseable una precisión de cuantificación extremadamente baja. Según Kumar, a menos que el modelo original sea increíblemente grande en términos de número de parámetros, las precisiones inferiores a 7 u 8 bits pueden experimentar una reducción notable en la calidad.

Si todo esto parece un poco técnico, no se preocupe, lo es. Pero la conclusión es simplemente que los modelos de IA no se comprenden completamente y los atajos conocidos que funcionan en muchos tipos de computación no funcionan aquí. No dirías “mediodía” si alguien te preguntara cuándo comenzaron una carrera de 100 metros, ¿verdad? No es tan obvio, por supuesto, pero la idea es la misma:

“El punto clave de nuestro trabajo es que existen limitaciones que no se pueden sortear ingenuamente”, concluyó Kumar. “Esperamos que nuestro trabajo agregue matices a la discusión que a menudo busca valores predeterminados de precisión cada vez más bajos para el entrenamiento y la inferencia”.

Kumar reconoce que su estudio y el de sus colegas se realizaron a una escala relativamente pequeña; planean probarlo con más modelos en el futuro. Pero cree que al menos una idea se mantendrá: no hay nada gratis cuando se trata de reducir los costos de inferencia.

“La precisión de los bits es importante y no es gratuita”, afirmó. “No se puede reducirlo para siempre sin que los modelos sufran. Los modelos tienen una capacidad finita, por lo que, en lugar de intentar incluir mil billones de tokens en un modelo pequeño, en mi opinión se dedicará mucho más esfuerzo a una meticulosa conservación y filtrado de datos, de modo que sólo los datos de mayor calidad se coloquen en modelos más pequeños. Soy optimista en cuanto a que las nuevas arquitecturas que apuntan deliberadamente a estabilizar el entrenamiento de baja precisión serán importantes en el futuro”.