DevDay de OpenAI ofrece API en tiempo real y otras ventajas para los desarrolladores de aplicaciones de IA

OpenAI’s DevDay brings Realtime API and other treats for AI app developers

Ha sido una semana tumultuosa para OpenAI, llena de salidas de ejecutivos e importantes desarrollos de recaudación de fondos, pero la startup está de vuelta, tratando de convencer a los desarrolladores para que creen herramientas con sus modelos de IA en su DevDay 2024. La compañía anunció el martes varias herramientas nuevas, incluida una versión beta pública de su “API en tiempo real”, para crear aplicaciones con respuestas de voz de baja latencia generadas por IA. No es exactamente el modo de voz avanzado de ChatGPT, pero está cerca.

En una sesión informativa con periodistas antes del evento, el director de producto de OpenAI, Kevin Weil, dijo que las recientes salidas de la directora de tecnología Mira Murati y del director de investigación Bob McGrew no afectarían el progreso de la compañía.

“Comenzaré diciendo que Bob y Mira han sido líderes increíbles. He aprendido mucho de ellos y son una parte muy importante para llevarnos a donde estamos hoy”, dijo Weil. “Y además, no vamos a frenar”.

Mientras OpenAI se somete a otra revisión de la C-suite (un recordatorio de la agitación que siguió al DevDay del año pasado), la compañía está tratando de convencer a los desarrolladores de que todavía ofrece la mejor plataforma para crear aplicaciones de IA. Los líderes dicen que la startup tiene más de 3 millones de desarrolladores que construyen con sus modelos de IA, pero OpenAI está operando en un espacio cada vez más competitivo.

OpenAI señaló que había reducido los costos para que los desarrolladores accedieran a su API en un 99% en los últimos dos años, aunque probablemente se vio obligado a hacerlo por competidores como Meta y Google que subcotizaban continuamente sus precios.

Una de las nuevas características de OpenAI, denominada Realtime API, brindará a los desarrolladores la oportunidad de crear experiencias de voz a voz casi en tiempo real en sus aplicaciones, con la opción de usar seis voces proporcionadas por OpenAI. Estas voces son distintas de las que se ofrecen para ChatGPT y los desarrolladores no pueden utilizar voces de terceros para evitar problemas de derechos de autor. (La voz basada ambiguamente en la de Scarlett Johansson no está disponible en ninguna parte).

Durante la sesión informativa, el jefe de experiencia de desarrolladores de OpenAI, Romain Huet, compartió una demostración de una aplicación de planificación de viajes creada con Realtime API. La aplicación permitía a los usuarios hablar verbalmente con un asistente de inteligencia artificial sobre un próximo viaje a Londres y obtener respuestas de baja latencia. La API en tiempo real también tiene acceso a una serie de herramientas, por lo que la aplicación pudo anotar un mapa con ubicaciones de restaurantes a medida que respondía.

En otro momento, Huet mostró cómo la API en tiempo real podía hablar por teléfono con un humano para preguntarle sobre cómo pedir comida para un evento. A diferencia del infame Duo de Google, la API de OpenAI no puede llamar directamente a restaurantes o tiendas; sin embargo, puede integrarse con API de llamada como Twilio para hacerlo. En particular, OpenAI es no agregando revelaciones para que sus modelos de IA se identifiquen automáticamente en llamadas como esta, a pesar de que estas voces generadas por IA suenan bastante realistas. Por ahora, parece ser responsabilidad de los desarrolladores añadir esta divulgación, algo que podría ser requerido por una nueva ley de California.

Como parte de sus anuncios del DevDay, OpenAI también introdujo el ajuste de visión en su API, lo que permitirá a los desarrolladores usar imágenes, además de texto, para ajustar sus aplicaciones de GPT-4o. En teoría, esto debería ayudar a los desarrolladores a mejorar el rendimiento de GPT-4o para tareas que impliquen comprensión visual. El jefe de API de producto de OpenAI, Olivier Godement, le dice a TechCrunch que los desarrolladores no podrán cargar imágenes con derechos de autor (como una imagen del pato Donald), imágenes que representen violencia u otras imágenes que violen las políticas de seguridad de OpenAI.

OpenAI está compitiendo para igualar lo que ya ofrecen sus competidores en el espacio de licencias de modelos de IA. Su función de almacenamiento en caché rápido es similar a la función que Anthropic lanzó hace varios meses, lo que permite a los desarrolladores almacenar en caché el contexto utilizado con frecuencia entre llamadas API, lo que reduce los costos y mejora la latencia. OpenAI dice que los desarrolladores pueden ahorrar un 50% usando esta función, mientras que Anthropic promete un descuento del 90%.

Por último, OpenAI ofrece una función de destilación de modelos para permitir a los desarrolladores utilizar modelos de IA más grandes, como o1-preview y GPT-4o, para ajustar modelos más pequeños como GPT-4o mini. La ejecución de modelos más pequeños generalmente proporciona ahorros de costos en comparación con la ejecución de modelos más grandes, pero esta característica debería permitir a los desarrolladores mejorar el rendimiento de esos pequeños modelos de IA. Como parte de la destilación del modelo, OpenAI está lanzando una herramienta de evaluación beta para que los desarrolladores puedan medir el rendimiento de sus ajustes dentro de la API de OpenAI.

DevDay puede causar mayor revuelo por lo que no anunció; por ejemplo, no se anunció ninguna noticia sobre la Tienda GPT durante el DevDay del año pasado. Lo último que supimos es que OpenAI ha estado poniendo a prueba un programa de reparto de ingresos con algunos de los creadores más populares de GPT, pero la compañía no ha anunciado mucho desde entonces.

Además, OpenAI dice que no lanzará ningún modelo nuevo de IA durante el DevDay de este año. Los desarrolladores que esperan OpenAI o1 (no la versión preliminar o mini) o el modelo de generación de video de la startup, Sora, tendrán que esperar un poco más.