Las leyes actuales de escalamiento de la IA están mostrando rendimientos decrecientes, lo que obliga a los laboratorios de IA a cambiar de rumbo.

Los laboratorios de IA que recorren el camino hacia sistemas superinteligentes se están dando cuenta de que tal vez tengan que tomar un desvío.

Las “leyes de escalamiento de la IA”, los métodos y expectativas que los laboratorios han utilizado para aumentar las capacidades de sus modelos durante los últimos cinco años, ahora están mostrando signos de rendimientos decrecientes, según varios inversores, fundadores y directores ejecutivos de IA que hablaron con TechCrunch. Sus opiniones se hacen eco de informes recientes que indican que los modelos dentro de los principales laboratorios de IA están mejorando más lentamente que antes.

Ahora todo el mundo parece admitir que no se puede simplemente utilizar más computación y más datos mientras se entrenan previamente grandes modelos de lenguaje, y esperar que se conviertan en una especie de dios digital que todo lo sabe. Quizás suene obvio, pero estas leyes de escalamiento fueron un factor clave en el desarrollo de ChatGPT, mejorándolo y probablemente influyendo en muchos directores ejecutivos para que hicieran predicciones audaces sobre la llegada de AGI en tan solo unos años.

El cofundador de OpenAI y Safe Super Intelligence, Ilya Sutskever, dijo a Reuters la semana pasada que “todo el mundo está buscando lo próximo” para escalar sus modelos de IA. A principios de este mes, el cofundador de a16z, Marc Andreessen, dijo en un podcast que los modelos de IA actualmente parecen estar convergiendo en el mismo límite de capacidades.

Pero ahora, casi inmediatamente después de que estas preocupantes tendencias comenzaron a surgir, los directores ejecutivos, investigadores e inversores de IA ya están declarando que estamos en una nueva era de leyes de escalamiento. La “computación en tiempo de prueba”, que brinda a los modelos de IA más tiempo y computación para “pensar” antes de responder una pregunta, es un candidato especialmente prometedor para ser el próximo gran avance.

“Estamos viendo el surgimiento de una nueva ley de escala”, dijo el CEO de Microsoft, Satya Nadella, en el escenario de Microsoft Ignite el martes, refiriéndose a la investigación informática en tiempo de prueba que sustenta el modelo o1 de OpenAI.

Él no es el único que ahora señala a o1 como el futuro.

“Ahora estamos en la segunda era de las leyes de escala, que es la escala de tiempo de prueba”, dijo Anjney Midha, socia de Andreessen Horowitz, quien también forma parte de la junta directiva de Mistral y fue un inversor ángel en Anthropic, en una entrevista reciente con TechCrunch. .

Si el éxito inesperado (y ahora la repentina desaceleración) de las leyes anteriores de escalamiento de la IA nos dice algo, es que es muy difícil predecir cómo y cuándo mejorarán los modelos de IA.

De todos modos, parece haber un cambio de paradigma en marcha: las formas en que los laboratorios de IA intentarán avanzar en sus modelos durante los próximos cinco años probablemente no se parecerán a los últimos cinco.

¿Cuáles son las leyes de escala de la IA?

Las rápidas mejoras en los modelos de IA que OpenAI, Google, Meta y Anthropic han logrado desde 2020 se pueden atribuir en gran medida a una idea clave: utilizar más computación y más datos durante la fase de preentrenamiento de un modelo de IA.

Cuando los investigadores dan abundantes recursos a los sistemas de aprendizaje automático durante esta fase (en la que la IA identifica y almacena patrones en grandes conjuntos de datos), los modelos tienden a funcionar mejor a la hora de predecir la siguiente palabra o frase.

Esta primera generación de leyes de escalado de IA amplió los límites de lo que podían hacer las computadoras, a medida que los ingenieros aumentaron la cantidad de GPU utilizadas y la cantidad de datos que recibían. Incluso si este método en particular ha seguido su curso, ya ha vuelto a dibujar el mapa. Básicamente, todas las grandes empresas tecnológicas han apostado por la IA, mientras que Nvidia, que suministra las GPU en las que todas estas empresas entrenan sus modelos, es ahora la empresa que cotiza en bolsa más valiosa del mundo.

Pero estas inversiones también se realizaron con la expectativa de que la ampliación continuara como se esperaba.

Es importante señalar que las leyes de escala no son leyes de la naturaleza, la física, las matemáticas o el gobierno. Nada ni nadie les garantiza que seguirán al mismo ritmo. Incluso la Ley de Moore, otra famosa ley de escala, acabó desapareciendo, aunque ciertamente tuvo una vigencia más larga.

“Si simplemente agregas más computación, agregas más datos, haces que el modelo sea más grande, hay rendimientos decrecientes”, dijo el cofundador y ex director ejecutivo de Anyscale, Robert Nishihara, en una entrevista con TechCrunch. “Para mantener vigentes las leyes de escalamiento y seguir aumentando el ritmo de progreso, también necesitamos nuevas ideas”.

Nishihara está bastante familiarizado con las leyes de escala de la IA. Anyscale alcanzó una valoración de mil millones de dólares mediante el desarrollo de software que ayuda a OpenAI y otros desarrolladores de modelos de IA a escalar sus cargas de trabajo de entrenamiento de IA a decenas de miles de GPU. Anyscale ha sido uno de los mayores beneficiarios del entrenamiento previo de las leyes de escalamiento en torno a la computación, pero incluso su cofundador reconoce que la temporada está cambiando.

“Cuando has leído un millón de reseñas en Yelp, tal vez las próximas reseñas en Yelp no te brinden tanto”, dijo Nishihara, refiriéndose a las limitaciones de escalar los datos. “Pero eso es preentrenamiento. La metodología en torno al post-entrenamiento, diría yo, es bastante inmadura y tiene mucho margen de mejora”.

Para ser claros, es probable que los desarrolladores de modelos de IA continúen persiguiendo grupos de cómputo más grandes y conjuntos de datos más grandes para el entrenamiento previo, y probablemente haya más mejoras que lograr con esos métodos. Elon Musk terminó recientemente de construir una supercomputadora con 100.000 GPU, denominada Colossus, para entrenar los próximos modelos de xAI. Habrá más grupos y más grandes por venir.

Pero las tendencias sugieren que el crecimiento exponencial no es posible simplemente usando más GPU con las estrategias existentes, por lo que de repente los nuevos métodos están recibiendo más atención.

Computación en tiempo de prueba: la próxima gran apuesta de la industria de la IA

Cuando OpenAI lanzó una vista previa de su modelo o1, la startup anunció que era parte de una nueva serie de modelos separados de GPT.

OpenAI mejoró sus modelos GPT en gran medida a través de leyes de escalamiento tradicionales: más datos, más potencia durante el preentrenamiento. Pero ahora, según se informa, ese método no les está aportando mucho. El marco de modelos o1 se basa en un nuevo concepto, cálculo en tiempo de prueba, llamado así porque los recursos informáticos se utilizan después de una indicación, no antes. La técnica aún no se ha explorado mucho en el contexto de las redes neuronales, pero ya se muestra prometedora.

Algunos ya señalan la computación en tiempo de prueba como el próximo método para escalar los sistemas de IA.

“Varios experimentos están demostrando que, aunque las leyes de escala previas al entrenamiento pueden estar desacelerando, las leyes de escala en el momento de la prueba (en las que se le da al modelo más cálculo en la inferencia) pueden generar ganancias crecientes en el rendimiento”, dijo Midha de a16z.

“La nueva serie ‘o’ de OpenAI lleva (la cadena de pensamiento) más allá y requiere muchos más recursos informáticos y, por lo tanto, energía para lograrlo”, dijo el famoso investigador de IA Yoshua Benjio en un artículo de opinión el martes. “Así vemos aparecer una nueva forma de escalamiento computacional. No solo más datos de entrenamiento y modelos más grandes, sino más tiempo dedicado a ‘pensar’ en las respuestas”.

Durante un período de 10 a 30 segundos, el modelo o1 de OpenAI se vuelve a solicitar varias veces, dividiendo un problema grande en una serie de problemas más pequeños. A pesar de que ChatGPT dice que es “pensar”, no hace lo que hacen los humanos, aunque nuestros métodos internos de resolución de problemas, que se benefician de una clara reformulación de un problema y soluciones graduales, fueron inspiraciones clave para el método.

Hace aproximadamente una década, Noam Brown, quien ahora lidera el trabajo de OpenAI en o1, estaba tratando de construir sistemas de inteligencia artificial que pudieran vencer a los humanos en el póquer. Durante una charla reciente, Brown dice que notó en ese momento cómo los jugadores de póquer humanos se tomaban el tiempo para considerar diferentes escenarios antes de jugar una mano. En 2017, introdujo un método para dejar que un modelo “pensara” durante 30 segundos antes de jugar. En ese momento, la IA jugaba diferentes subjuegos, descubriendo cómo se desarrollarían los diferentes escenarios para determinar el mejor movimiento.

Al final, la IA funcionó siete veces mejor que en intentos anteriores.

Por supuesto, la investigación de Brown en 2017 no utilizó redes neuronales, que no eran tan populares en ese momento. Sin embargo, los investigadores del MIT publicaron un artículo la semana pasada que muestra que la computación en tiempo de prueba mejora significativamente el rendimiento de un modelo de IA en tareas de razonamiento.

No está claro de inmediato cómo se escalaría el cálculo en el momento de la prueba. Podría significar que los sistemas de IA necesitan mucho tiempo para pensar en cuestiones difíciles; tal vez horas o incluso días. Otro enfoque podría ser permitir que un modelo de IA “piense” en preguntas en muchos chips simultáneamente.

Si la computación en tiempo de prueba despega como el próximo lugar para escalar los sistemas de IA, Midha dice que la demanda de chips de IA que se especialicen en inferencia de alta velocidad podría aumentar dramáticamente. Esto podría ser una buena noticia para nuevas empresas como Groq o Cerebras, que se especializan en chips rápidos de inferencia de IA. Si encontrar la respuesta requiere tanta computación como entrenar el modelo, los proveedores de “pico y pala” en IA vuelven a ganar.

El mundo de la IA todavía no entra en pánico

La mayor parte del mundo de la IA no parece estar perdiendo la calma ante la desaceleración de estas antiguas leyes de escala. Incluso si la computación en tiempo de prueba no demuestra ser la próxima ola de escalamiento, algunos sienten que solo estamos arañando la superficie de las aplicaciones para los modelos de IA actuales.

Los nuevos productos populares podrían dar a los desarrolladores de modelos de IA algo de tiempo para descubrir nuevas formas de mejorar los modelos subyacentes.

“Estoy completamente convencido de que veremos ganancias de al menos 10 a 20 veces en el rendimiento del modelo simplemente a través del trabajo puro a nivel de aplicación, simplemente permitiendo que los modelos brillen a través de indicaciones inteligentes, decisiones de UX y pasando el contexto en el momento adecuado a los modelos”, dijo Midha.

Por ejemplo, el modo de voz avanzado de ChatGPT es una de las aplicaciones más impresionantes de los modelos de IA actuales. Sin embargo, eso fue en gran medida una innovación en la experiencia del usuario, no necesariamente en la tecnología subyacente. Puede ver cómo otras innovaciones de UX, como brindar acceso a esa función a la web o a las aplicaciones en su teléfono, harían que el producto fuera mucho mejor.

Kian Katanforoosh, director ejecutivo de la startup de inteligencia artificial Workera y profesor adjunto de aprendizaje profundo en Stanford, le dice a TechCrunch que las empresas que crean aplicaciones de inteligencia artificial, como la suya, no necesariamente necesitan modelos exponencialmente más inteligentes para crear mejores productos. También dice que los productos relacionados con los modelos actuales tienen mucho margen para mejorar.

“Digamos que usted construye aplicaciones de IA y su IA alucina en una tarea específica”, dijo Katanforoosh. “Hay dos formas de evitarlo. O el LLM tiene que mejorar y dejará de alucinar, o las herramientas que lo rodean tienen que mejorar y tendrás oportunidades de solucionar el problema”.

Cualquiera que sea el caso de la frontera de la investigación de la IA, los usuarios probablemente no sentirán los efectos de estos cambios durante algún tiempo. Dicho esto, los laboratorios de IA harán todo lo necesario para seguir enviando modelos más grandes, más inteligentes y más rápidos al mismo ritmo rápido. Eso significa que varias empresas tecnológicas líderes ahora podrían cambiar la forma en que están ampliando los límites de la IA.