El agente de ‘modelo de acción a gran escala’ basado en la web de Rabbit llegará a r1 a principios de esta semana

Rabbit’s web-based ‘large action model’ agent arrives on r1 as early as this week

El Rabbit r1 era el dispositivo imprescindible de principios de 2024, pero perdió popularidad rápidamente cuando las promesas expansivas de la compañía no se materializaron. El director ejecutivo Jesse Lyu admite que “el primer día, fijamos nuestras expectativas demasiado altas”, pero que una actualización que llegará a sus dispositivos este mes finalmente hará que su aclamado modelo Large Action esté disponible de forma gratuita en la web.

Si bien los escépticos pueden (justificadamente) ver esto como demasiado poco, demasiado tarde u otro cambio de objetivos, la aspiración de Rabbit de construir un agente independiente de la plataforma para aplicaciones web y móviles todavía tiene un valor fundamental, aunque todavía en gran medida teórico.

En declaraciones a TechCrunch, Lyu dijo que los últimos seis meses han sido un torbellino de envíos, correcciones de errores, mejoras en los tiempos de respuesta y la incorporación de funciones menores. Pero a pesar de las 16 actualizaciones inalámbricas del r1, sigue limitado fundamentalmente a la interacción con un LLM o al acceso a uno de los 7 servicios específicos, como Uber y Spotify.

“Esa fue la primera versión del LAM, entrenada con grabaciones recopiladas de trabajadores de datos, pero no es genérica, solo se conecta a esos servicios”, dijo. Si era o no lo que llaman LAM es algo bastante académico en este momento; cualquiera que fuera el modelo, no brindaba las capacidades que Rabbit detalló en su debut.

Un agente generalista basado en la web

Pero Rabbit está listo para lanzar la primera versión genérica, es decir, no específica para ninguna aplicación o interfaz, del LAM, que Lyu me demostró.

Esta versión es un agente basado en web que explica los pasos para realizar cualquier tarea ordinaria, como comprar entradas para un concierto, registrar un sitio web o incluso jugar un juego en línea.

“Nuestro objetivo es muy claro: a finales de septiembre, tu r1 podrá hacer muchas más cosas. Debería soportar todo lo que puedas hacer en cualquier sitio web”, dijo Lyu.

Asignada una tarea, primero la divide en pasos y luego comienza a ejecutarlos analizando lo que ve en la pantalla: botones, campos, imágenes, independientemente de su posición o apariencia. Luego interactúa con el elemento apropiado en función de lo que ha aprendido en general sobre cómo funcionan los sitios web.

Le pedí (a través de Lyu, que lo operaba de forma remota) que registrara un nuevo sitio web para un festival de cine. Cada pocos segundos, el programa realizaba una acción: buscaba registros de dominio en Google, elegía uno (uno patrocinado, creo), ponía festival de cine en el cuadro de dominio y, de la lista de opciones resultante, elegía “filmfestival2023.com” por 14 dólares. Técnicamente, no le había dado ninguna restricción como “para 2025” o “festival de terror” ni nada por el estilo.

De la misma manera, cuando Lyu le pidió que buscara y comprara un r1, rápidamente encontró el camino a eBay, donde había docenas de ellos en oferta. Quizás fue un buen resultado para un usuario, ¡pero no para el fundador de la empresa que se presentaba ante la prensa! Se rió y repitió el mensaje con el añadido de que debería comprar solo en el sitio web oficial. El agente lo logró.

A continuación, le pidió que jugara el juego de palabras diario de Dictionary.com. Hizo falta un poco de ingeniería rápida (el modelo encontró una salida: podía terminar rápidamente presionando “fin del juego”), pero lo hizo.

Pero ¿de qué navegador se trata? Uno nuevo y limpio en la nube, dijo Lyu, pero están trabajando en versiones locales, como una extensión de Chrome, que significaría que se pueden usar sesiones existentes y no sería necesario iniciar sesión en sus servicios.

Con ese fin, como es comprensible (y con razón) que los usuarios se muestren recelosos de dar a cualquier empresa acceso total a sus credenciales, el agente no está equipado con ellas. Lyu sugirió que en el futuro se podría invocar de forma privada un pequeño modelo de lenguaje amurallado con sus credenciales para realizar inicios de sesión. Parece ser una pregunta abierta cómo funcionará esto, lo cual es algo esperable dada la novedad del espacio.

Todavía estoy aprendiendo

Un ejemplo de análisis de UI dentro de aplicaciones del sitio web Rabbit.

La demostración me mostró un par de cosas. En primer lugar, si le damos a la empresa y a sus desarrolladores el beneficio de la duda de que no se trata de un engaño elaborado (como algunos creen), parece ser un agente web funcional y de uso general. Y eso sería, si bien no una novedad en sí misma, ciertamente el primero en ser fácilmente accesible para los consumidores.

“Hay empresas que trabajan en sectores verticales, como Excel o documentos legales, pero creo que este es uno de los primeros agentes generales para consumidores”, dijo Lyu. “La idea es que se pueda decir cualquier cosa que se pueda lograr a través de un sitio web. Primero tendremos el agente genérico para sitios web, luego para aplicaciones”.

En segundo lugar, demostró que todavía es muy necesaria la ingeniería rápida. La forma en que se formula una solicitud puede marcar fácilmente la diferencia entre el éxito y el fracaso, y eso es algo que probablemente no toleren los consumidores comunes.

Lyu advirtió que se trata de una “versión de prueba”, que no es definitiva en ningún sentido, y que, aunque es un agente web general en pleno funcionamiento, todavía se puede mejorar de muchas maneras. Por ejemplo, dijo, “el modelo es lo suficientemente inteligente como para hacer la planificación, pero no lo suficientemente inteligente como para saltarse pasos”. No “aprendería” que un usuario prefiere no comprar sus productos electrónicos en eBay, o que debería desplazarse hacia abajo después de realizar una búsqueda para evitar el muro de resultados patrocinados.

Los datos de los usuarios no se recopilarán para mejorar el modelo… todavía. Lyu atribuyó esto al hecho de que básicamente no existe un método de evaluación para un sistema como este, por lo que es difícil decir cuantitativamente si se han realizado mejoras. Sin embargo, también llegará un “modo de enseñanza”, para que puedas mostrarle cómo hacer un tipo específico de tarea.

Curiosamente, la empresa también está trabajando en un agente de escritorio que puede interactuar con aplicaciones como procesadores de texto, reproductores de música y, por supuesto, navegadores. Todavía se encuentra en las primeras etapas, pero está funcionando. “Ni siquiera es necesario introducir un destino, simplemente intenta utilizar el ordenador. Siempre que haya una interfaz, puede controlarlo”.

En tercer lugar, todavía no existe una “aplicación revolucionaria”, o al menos no una obvia. El agente es impresionante, pero yo personalmente no le daría mucha utilidad, ya que, de todos modos, por desgracia, me paso ocho horas al día sentado delante de un navegador. Es casi seguro que existen algunas aplicaciones estupendas, pero no se me ocurre ninguna que haga que la utilidad de un autómata basado en navegador sea tan obvia como la de, por ejemplo, un robot aspirador.

¿Por qué no una aplicación otra vez?

El Rabbit R1 en uso. Modelo de mano: Chris Velazco del Washington Post.

Planteé la objeción común a todo el modelo de negocio de Rabbit: esencialmente, que “esto podría ser una aplicación”.

Lyu claramente había escuchado esta crítica muchas veces y estaba seguro de su respuesta.

“Si haces los cálculos, no tiene sentido”, dijo. “Sí, es técnicamente alcanzable, pero vas a enfadar a Apple y Google desde el primer día. Nunca dejarán que esto sea mejor que Siri o Gemini. Al igual que no hay forma de que la inteligencia de Apple controle mejor las cosas de Google, o viceversa. ¡Y se llevan el 30% de los ingresos! Si al principio nos hubiéramos limitado a crear una aplicación, nunca habríamos tenido este impulso”.

El argumento fundamental que Rabbit propone es que puede haber una IA o un dispositivo de terceros que pueda acceder y operar todos sus otros servicios, y desde fuera de ellos, como lo hace usted. “Un sistema de agente genérico y multiplataforma”, como lo llamó Lyu. “Controlaremos cada interfaz de usuario, y el sitio web es un buen comienzo. Luego pasaremos a Windows, a MacOS, a los teléfonos”.

Hablando de eso: “Nunca dijimos que nunca fabricaríamos un teléfono en el futuro”. ¿No es eso antitético a su tesis original de un dispositivo más pequeño y simple? Tal vez sí, tal vez no.

Mientras tanto, están trabajando para comenzar a cumplir las promesas que hicieron a principios de este año. El nuevo modelo debería estar disponible para cualquier propietario de un r1 en algún momento de esta semana cuando salga la actualización OTA. Las instrucciones sobre cómo invocarla también llegarán entonces. Lyu advirtió a los usuarios expectantes con su característica subestimación.

“Estamos generando expectativas adecuadas. No es perfecto”, afirmó. “Es simplemente lo mejor que la raza humana ha logrado hasta ahora”.

pateador: teléfono..?