Muchas empresas no dicen si cumplirán con la ley de transparencia en la capacitación en IA de California

Text to video concept, text-to-video by generative AI. Language model technology. Cyborg hand holding vdo generated by artificial intelligence.

El domingo, el gobernador de California, Gavin Newsom, firmó un proyecto de ley, AB-2013, que exige que las empresas que desarrollan sistemas de IA generativa publiquen un resumen de alto nivel de los datos que utilizaron para entrenar sus sistemas. Entre otros puntos, los resúmenes deben cubrir quién es el propietario de los datos y cómo se obtuvieron o licenciaron, así como si incluyen información personal o protegida por derechos de autor.

Pocas empresas de IA están dispuestas a decir si cumplirán.

TechCrunch se acercó a los principales actores en el espacio de la IA, incluidos OpenAI, Anthropic, Microsoft, Google, Amazon, Meta y las nuevas empresas Stability AI, Midjourney, Udio, Suno, Runway y Luma Labs. Menos de la mitad respondió y un proveedor, Microsoft, se negó explícitamente a hacer comentarios.

Solo Stability, Runway y OpenAI le dijeron a TechCrunch que cumplirían con AB-2013.

“OpenAI cumple con la ley en las jurisdicciones en las que operamos, incluida ésta”, dijo un portavoz de OpenAI. Un portavoz de Stability dijo que la compañía “apoya una regulación bien pensada que proteja al público y al mismo tiempo no sofoque la innovación”.

Para ser justos, los requisitos de divulgación de AB-2013 no entran en vigor de inmediato. Si bien se aplican a los sistemas lanzados a partir de enero de 2022 (ChatGPT y Stable Diffusion, por nombrar algunos), las empresas tienen hasta enero de 2026 para comenzar a publicar resúmenes de datos de capacitación. La ley también se aplica sólo a los sistemas puestos a disposición de los californianos, lo que deja cierto margen de maniobra.

Pero puede haber otra razón para el silencio de los proveedores al respecto, y tiene que ver con la forma en que se entrenan la mayoría de los sistemas de IA generativa.

Los datos de entrenamiento frecuentemente provienen de la web. Los proveedores extraen grandes cantidades de imágenes, canciones, vídeos y más de sitios web y entrenan sus sistemas con ellos.

Hace años, era una práctica estándar que los desarrolladores de IA enumeraran las fuentes de sus datos de entrenamiento, generalmente en un documento técnico que acompañaba al lanzamiento de un modelo. Google, por ejemplo, reveló una vez que entrenó una versión inicial de su familia de modelos de generación de imágenes, Imagen, en el conjunto de datos públicos LAION. Muchos artículos antiguos mencionan The Pile, una colección de texto de capacitación de código abierto que incluye estudios académicos y bases de código.

En el feroz mercado actual, la composición de conjuntos de datos de entrenamiento se considera una ventaja competitiva, y las empresas citan esto como una de las principales razones para no divulgarlos. Pero los detalles de los datos de entrenamiento también pueden representar un objetivo legal para los desarrolladores. LAION enlaza con imágenes protegidas por derechos de autor y que violan la privacidad, mientras que The Pile contiene Books3, una biblioteca de obras pirateadas de Stephen King y otros autores.

Ya existen varias demandas por el uso indebido de datos de entrenamiento y cada mes se presentan más.

Los autores y editores afirman que OpenAI, Anthropic y Meta utilizaron libros con derechos de autor, algunos de Books3, para la formación. Los sellos discográficos han llevado a Udio y Suno a los tribunales por supuestamente entrenar canciones sin compensar a los músicos. Y los artistas han presentado demandas colectivas contra Stability y Midjourney por lo que dicen son prácticas de extracción de datos que equivalen a robo.

No es difícil ver cómo la AB-2013 podría ser problemática para los proveedores que intentan mantener a raya las batallas judiciales. La ley exige que se hagan públicas una serie de especificaciones potencialmente incriminatorias sobre los conjuntos de datos de entrenamiento, incluido un aviso que indique cuándo se utilizaron los conjuntos por primera vez y si la recopilación de datos está en curso.

AB-2013 tiene un alcance bastante amplio. Cualquier entidad que “modifique sustancialmente” un sistema de IA (es decir, lo ajuste o lo vuelva a entrenar) es también obligados a publicar información sobre los datos de entrenamiento que utilizaron para hacerlo. La ley tiene algunas excepciones, pero se aplican principalmente a los sistemas de inteligencia artificial utilizados en ciberseguridad y defensa, como los utilizados para “la operación de aeronaves en el espacio aéreo nacional”.

Por supuesto, muchos proveedores creen que la doctrina conocida como uso legítimo proporciona cobertura legal, y lo afirman en los tribunales y en declaraciones públicas. Algunos, como Meta y Google, han cambiado la configuración y los términos de servicio de sus plataformas para permitirles aprovechar más datos de los usuarios para capacitación.

Estimuladas por las presiones competitivas y apostando a que las defensas del uso legítimo prevalecerán al final, algunas empresas se han formado generosamente en datos protegidos por propiedad intelectual. Un informe de Reuters reveló que Meta en un momento utilizó libros con derechos de autor para el entrenamiento de IA a pesar de las advertencias de sus propios abogados. Hay evidencia de que Runway obtuvo películas de Netflix y Disney para entrenar sus sistemas de generación de video. Y, según se informa, OpenAI transcribió videos de YouTube sin el conocimiento de los creadores para desarrollar modelos, incluido GPT-4.

Como hemos escrito antes, hay un resultado en el que los proveedores de IA generativa salen impunes, con o sin divulgación de datos de entrenamiento del sistema. Los tribunales pueden terminar poniéndose del lado de los defensores del uso legítimo y decidir que la IA generativa es suficientemente transformadora, y no el motor de plagio que The New York Times y otros demandantes alegan que lo es.

En un escenario más dramático, AB-2013 podría llevar a que los proveedores retengan ciertos modelos en California o lancen versiones de modelos para californianos capacitados únicamente en uso legítimo y conjuntos de datos con licencia. Algunos proveedores pueden decidir que el curso de acción más seguro con AB-2013 es el que evita divulgaciones comprometedoras (y que generen demandas).

Suponiendo que la ley no sea cuestionada y/o suspendida, tendremos una imagen clara para la fecha límite de AB-2013 dentro de poco más de un año.