Esta semana en IA: es sorprendentemente fácil hacer un deepfake de Kamala Harris

Hola amigos, bienvenidos al boletín informativo periódico sobre IA de TechCrunch. Si quieres recibir esto en tu bandeja de entrada todos los miércoles, regístrate aquí. Fue sorprendentemente fácil crear un audio deepfake convincente de Kamala Harris el día de las elecciones. Me costó 5 dólares y me llevó menos de dos minutos, lo que ilustra cómo la IA generativa, barata y ubicua, ha abierto las compuertas a la desinformación. Crear un deepfake de Harris no era mi intención original. Estaba jugando con Voice Changer de Cartesia, un modelo que transforma tu voz en una voz diferente conservando la prosodia del original. Esa segunda voz puede ser un "clon" de la de otra persona: Cartesia creará un doble de voz digital a partir de cualquier grabación de 10 segundos. Entonces, me pregunté: ¿Voice Changer transformaría mi voz en la de Harris? Pagué $5 para desbloquear la función de clonación de voz de Cartesia, creé un clon de la voz de Harris usando discursos de campaña recientes y seleccioné ese clon como resultado en Voice Changer. Funcionó a las mil maravillas: Estoy seguro de que Cartesia no tenía la intención exacta de que sus herramientas se utilizaran de esta manera. Para habilitar la clonación de voz, Cartesia requiere que marques una casilla que indica que no generarás nada dañino o ilegal y que aceptas que tus grabaciones de voz sean clonadas. Pero eso es sólo un sistema de honor. A falta de salvaguardias reales, no hay nada que impida que una persona cree tantos deepfakes “dañinos o ilegales” como desee. Eso es un problema, no hace falta decirlo. Entonces ¿cuál es la solución? ¿Hay uno? Cartesia puede implementar la verificación de voz, como lo han hecho otras plataformas. Pero para cuando lo haga, es probable que haya surgido una nueva herramienta de clonación de voz sin restricciones. Hablé sobre este mismo tema con expertos en la conferencia Disrupt de TC la semana pasada. Algunos apoyaron la idea de marcas de agua invisibles para que sea más fácil saber si el contenido ha sido generado por IA. Otros señalaron leyes de moderación de contenidos, como la Ley de Seguridad en Línea del Reino Unido, que, según ellos, podría ayudar a detener la marea de desinformación. Llámenme pesimista, pero creo que esos barcos ya zarparon. Estamos ante, como lo expresó el director ejecutivo del Centro para Contrarrestar el Odio Digital, Imran Ahmed, una “máquina de toros perpetua”. La desinformación se está difundiendo a un ritmo alarmante. Algunos ejemplos destacados del año pasado incluyen una red de bots en X dirigida a las elecciones federales de EE. UU. y un correo de voz falso del presidente Joe Biden que disuade a los residentes de New Hampshire de votar. Pero los votantes estadounidenses y las personas conocedoras de la tecnología no son el objetivo de la mayor parte de este contenido, según el análisis de True Media.org, por lo que tendemos a subestimar su presencia en otros lugares. El volumen de deepfakes generados por IA creció un 900% entre 2019 y 2020, según datos del Foro Económico Mundial. Mientras tanto, existen relativamente pocas leyes contra los deepfakes. Y la detección de deepfakes está a punto de convertirse en una carrera armamentista sin fin. Algunas herramientas inevitablemente no optarán por utilizar medidas de seguridad como marcas de agua, o se implementarán teniendo en mente aplicaciones expresamente maliciosas. A falta de un cambio radical, creo que lo mejor que podemos hacer es ser intensamente escépticos sobre lo que hay ahí fuera, particularmente el contenido viral. No es tan fácil como antes distinguir la verdad de la ficción en línea. Pero todavía tenemos el control de lo que compartimos y de lo que no. Y eso es mucho más impactante de lo que parece. Noticias Revisión de búsqueda de ChatGPT: Mi colega Max probó la nueva integración de búsqueda de OpenAI para ChatGPT, ChatGPT Search. Le pareció impresionante en algunos aspectos, pero poco confiable para consultas breves que contienen solo unas pocas palabras. Drones de Amazon en Phoenix: Unos meses después de finalizar su programa de entregas mediante drones, Prime Air, en California, Amazon dice que ha comenzado a realizar entregas a clientes seleccionados a través de drones en Phoenix, Arizona. El ex líder de Meta AR se une a OpenAI: La ex jefa de los esfuerzos de gafas AR de Meta, incluido Orion, anunció el lunes que se unirá a OpenAI para liderar la robótica y el hardware de consumo. La noticia llega después de que OpenAI contratara al cofundador de X (anteriormente Twitter), Pebble. Retenido por cálculo: En un AMA de Reddit, el director ejecutivo de OpenAI, Sam Altman, admitió que la falta de capacidad informática es un factor importante que impide a la empresa enviar productos con la frecuencia que quisiera. Resúmenes generados por IA: Amazon ha lanzado “X-Ray Recaps”, una función generativa impulsada por IA que crea resúmenes concisos de temporadas de televisión completas, episodios individuales e incluso partes de episodios. Alzas antrópicas Precios del haiku: Ha llegado el modelo de IA más nuevo de Anthropic: Claude 3.5 Haiku. Pero es más caro que la última generación y, a diferencia de otros modelos de Anthropic, todavía no puede analizar imágenes, gráficos o diagramas. Apple adquiere Pixelmator: El editor de imágenes basado en inteligencia artificial Pixelmator anunció el viernes que Apple lo adquirirá. El acuerdo se produce cuando Apple se ha vuelto más agresiva en la integración de la IA en sus aplicaciones de imágenes. Una Alexa 'agente': La semana pasada, el director ejecutivo de Amazon, Andy Jassy, insinuó una versión mejorada "agencial" del asistente Alexa de la compañía, una que podría tomar acciones en nombre de un usuario. Según los informes, la Alexa renovada ha enfrentado retrasos y contratiempos técnicos, y es posible que no se lance hasta 2025. Trabajo de investigación de la semana. Las ventanas emergentes en la web también pueden engañar a la IA, no sólo a los abuelos. En un nuevo artículo, investigadores de Georgia Tech, la Universidad de Hong Kong y Stanford muestran que los “agentes” de IA (modelos de IA que pueden completar tareas) pueden ser secuestrados por “ventanas emergentes adversas” que instruyen a los modelos a hacer cosas como descargar extensiones de archivos maliciosos. Créditos de imagen:Zhang et al. Algunas de estas ventanas emergentes son obviamente trampas para el ojo humano, pero la IA no es tan perspicaz. Los investigadores dicen que los modelos de análisis de imágenes y texto que probaron no ignoraron las ventanas emergentes el 86% de las veces y, como resultado, tenían un 47% menos de probabilidades de completar las tareas. Las defensas básicas, como ordenar a los modelos que ignoraran las ventanas emergentes, no fueron efectivas. "La implementación de agentes para uso informático aún presenta riesgos importantes", escribieron los coautores del estudio, "y se necesitan sistemas de agentes más sólidos para garantizar un flujo de trabajo seguro de los agentes". modelo de la semana Meta anunció ayer que está trabajando con socios para que sus modelos de IA "abiertos" Llama estén disponibles para aplicaciones de defensa. Hoy, uno de esos socios, Scale AI, anunció Defense Llama, un modelo construido sobre Llama 3 de Meta que está "personalizado y ajustado para apoyar las misiones de seguridad nacional estadounidenses". Defense Llama, que está disponible en la plataforma de chatbot Donavan de Scale para clientes del gobierno de EE. UU., fue optimizada para planificar operaciones militares y de inteligencia, dice Scale. Defense Llama puede responder preguntas relacionadas con la defensa, por ejemplo, cómo un adversario podría planificar un ataque contra una base militar estadounidense. Entonces, ¿qué diferencia a Defense Llama de la Llama estándar? Bueno, Scale dice que se ajustó el contenido que podría ser relevante para las operaciones militares, como la doctrina militar y el derecho internacional humanitario, así como las capacidades de varias armas y sistemas de defensa. Tampoco está restringido a responder preguntas sobre la guerra, como podría estarlo un chatbot civil: Créditos de imagen:Escala.ai Sin embargo, no está claro quién podría estar dispuesto a usarlo. El ejército estadounidense ha tardado en adoptar la IA generativa y es escéptico sobre su retorno de la inversión. Hasta ahora, el ejército de EE. UU. es la única rama de las fuerzas armadas de EE. UU. con un despliegue de IA generativa. Los funcionarios militares han expresado su preocupación por las vulnerabilidades de seguridad en los modelos comerciales, así como por los desafíos legales asociados con el intercambio de datos de inteligencia y la imprevisibilidad de los modelos cuando se enfrentan a casos extremos. bolsa de agarre Spawning AI, una startup que crea herramientas para permitir a los creadores optar por no participar en el entrenamiento de IA generativa, ha publicado un conjunto de datos de imágenes para entrenar modelos de IA que, según afirma, es de dominio totalmente público. La mayoría de los modelos de IA generativa se entrenan con datos de la web pública, algunos de los cuales pueden tener derechos de autor o estar bajo una licencia restrictiva. OpenAI y muchos otros proveedores de IA argumentan que la doctrina del uso legítimo los protege de reclamos de derechos de autor. Pero eso no ha impedido que los propietarios de datos presenten demandas. Spawning AI dice que su conjunto de datos de entrenamiento de 12,4 millones de pares de imágenes y leyendas incluye solo contenido con "procedencia conocida" y "etiquetado con derechos claros e inequívocos" para el entrenamiento de IA. A diferencia de otros conjuntos de datos, también está disponible para descargar desde un host dedicado, lo que elimina la necesidad de realizar búsquedas en la web. "Es significativo que el estado de dominio público del conjunto de datos sea parte integral de estos objetivos más amplios", escribe Spawning en una publicación de blog. "Los conjuntos de datos que incluyen imágenes con derechos de autor seguirán dependiendo del web scraping porque alojar las imágenes violaría los derechos de autor". El conjunto de datos de Spawning, PD12M, y una versión seleccionada para imágenes "estéticamente agradables", PD3M, se pueden encontrar en este enlace.