ChatGPT ahora puede leer algunas de las aplicaciones de escritorio de tu Mac
ChatGPT de OpenAI está comenzando a funcionar con otras aplicaciones en su computadora.
El jueves, la startup anunció que la aplicación de escritorio ChatGPT para macOS ahora puede leer código en un puñado de aplicaciones de codificación centradas en desarrolladores, como VS Code, Xcode, TextEdit, Terminal e iTerm2.
Eso significa que los desarrolladores ya no tendrán que copiar y pegar su código en ChatGPT, que se ha convertido en una forma común de utilizar el chatbot. Ahora, cuando la función esté habilitada, OpenAI enviará automáticamente la sección de código en la que estás trabajando a través de su chatbot como contexto, junto con tu mensaje.
Sin embargo, a diferencia de las herramientas de codificación de IA populares como Cursor o GitHub Copilot, ChatGPT actualmente no puede escribir código directamente en aplicaciones de desarrollador en su nombre.
La función, llamada Trabajar con aplicaciones, está lejos de ser un agente de IA, pero OpenAI dice que lograr que ChatGPT comprenda otras aplicaciones es un “elemento clave” para construir sistemas de agentes. Uno de los mayores desafíos que enfrentan los agentes de IA hoy en día es lograr que comprendan el resto de la pantalla de su computadora, en lugar de las indicaciones o sus propias respuestas.
OpenAI dice que está centrando esta función en codificar aplicaciones para comenzar; Es probable que esto se deba a que los asistentes de codificación de IA se han convertido en uno de los casos de uso más populares para los LLM. La función está disponible para los usuarios de Plus y Teams hoy y se implementará en Enterprise y Edu en las próximas semanas. OpenAI dice que ChatGPT podrá trabajar con otros tipos de aplicaciones en el futuro, específicamente aplicaciones basadas en texto que podrían usarse para tareas de escritura.
En una demostración con TechCrunch, un empleado de OpenAI abrió la aplicación ChatGPT y un entorno Xcode que contenía un proyecto simple que modelaba el sistema solar, aunque faltaba la Tierra. El empleado seleccionó una pestaña de Xcode dentro de ChatGPT, que le indica al chatbot de IA que mire la aplicación y le solicita que “agregue los planetas que faltan”. El chatbot pudo completar la tarea, escribiendo una línea de código para representar la Tierra que coincidía con el resto del formato del proyecto. Sin embargo, todavía tenían que pegar la respuesta de ChatGPT en su entorno.
Para leer diferentes aplicaciones, OpenAI depende principalmente de la API de accesibilidad de macOS para leer texto y traducirlo a ChatGPT, según el líder de productos de escritorio de OpenAI, Alexander Embiricos. El lector de pantalla en macOS, que ayuda a que funcione la función VoiceOver de Apple, existe desde hace casi dos décadas. Generalmente se considera bastante confiable para las aplicaciones más comunes, pero no para todas.
Para algunas aplicaciones, como VS Code de Microsoft, Trabajar con aplicaciones requiere que los usuarios instalen una extensión especial para consultar el contenido. Y, como sugiere el nombre, el lector de pantalla de Apple solo puede leer texto, por lo que no puede ayudar a ChatGPT a comprender elementos visuales, como fotografías, la orientación de objetos o videos.
Trabaje con aplicaciones enviando sus últimas 200 líneas de código a través de ChatGPT junto con cada mensaje para determinadas aplicaciones. Para otros, todo el código de la ventana principal se utilizará como entrada para el chatbot. Puedes resaltar secciones de código o texto para ayudar a ChatGPT a centrarse en la parte correcta del proyecto, pero ChatGPT también incluirá texto a su alrededor. Parece que todo esto utilizará muchos tokens de entrada.
No está claro cómo OpenAI planea extender esta función a otras aplicaciones que no son compatibles con el lector de pantalla de Apple. Anthropic, uno de los competidores de OpenAI, lanzó un sistema de inteligencia artificial que analiza capturas de pantalla del escritorio de un usuario para comprender y utilizar otras aplicaciones. Para ser sincero, el enfoque de Anthropic deja mucho que desear en su estado actual: es lento y comete muchos errores. Sin embargo, es una versión de propósito más general de un agente de IA que no depende de API y puede hacer más que simplemente leer texto en otra ventana.
“Esto no pretende ser un agente; Es una forma de colaborar con herramientas de codificación para empezar, y pronto habrá más herramientas”, dijo Embiricos en una sesión informativa con TechCrunch. “Por parte de los agentes, creo que este es un elemento realmente clave. Esta idea es que ChatGPT entiende o puede trabajar con todo el contenido que tienes para poder ayudarte”.
Este paso hacia los agentes es especialmente notable dados los informes recientes de que OpenAI se acerca al lanzamiento de un agente de IA de propósito general, cuyo nombre en código es “Operador”, según Bloomberg. Se espera que la herramienta llegue a principios de 2025 y rivalizaría con otros intentos iniciales de agentes de IA de propósito general, como el uso de computadoras de Anthropic o el agente “Jarvis” de Google.
OpenAI lanzará por primera vez estas funciones en macOS, poco antes de que Apple lance una integración con ChatGPT en diciembre. No está claro cuándo llegará Work with Apps a Windows, el sistema operativo creado por el mayor patrocinador de OpenAI, Microsoft.