Microsoft afirma que su nueva herramienta puede corregir las alucinaciones de la IA, pero los expertos recomiendan precaución

Microsoft claims its new tool can correct AI hallucinations, but experts advise caution

La IA es una mentirosa notoria y Microsoft ahora dice que tiene una solución para eso. Es comprensible que esto genere algunas dudas, pero hay motivos para ser escépticos.

Microsoft presentó hoy Correction, un servicio que intenta revisar automáticamente el texto generado por IA que es incorrecto. Correction primero marca el texto que puede ser erróneo —por ejemplo, un resumen de la presentación de ganancias trimestrales de una empresa que puede tener citas mal atribuidas— y luego verificarlo comparando el texto con una fuente de verdad (por ejemplo, transcripciones).

La corrección, disponible como parte de la API de seguridad de contenido de IA de Azure de Microsoft, se puede utilizar con cualquier modelo de IA generador de texto, incluidos Llama de Meta y GPT-4o de OpenAI.

“La corrección se basa en un nuevo proceso que utiliza modelos de lenguaje pequeños y grandes para alinear los resultados con los documentos de base”, dijo un portavoz de Microsoft a TechCrunch. “Esperamos que esta nueva función ayude a los desarrolladores y usuarios de IA generativa en campos como la medicina, donde los desarrolladores de aplicaciones consideran que la precisión de las respuestas es de gran importancia”.

Google introdujo una función similar este verano en Vertex AI, su plataforma de desarrollo de IA, para permitir a los clientes “fundamentar” los modelos utilizando datos de proveedores externos, sus propios conjuntos de datos o la Búsqueda de Google.

Pero los expertos advierten que estos enfoques de puesta a tierra no abordan la causa raíz de las alucinaciones.

“Intentar eliminar las alucinaciones de la IA generativa es como intentar eliminar el hidrógeno del agua”, afirmó Os Keyes, candidato a doctorado en la Universidad de Washington que estudia el impacto ético de la tecnología emergente. “Es un componente esencial del funcionamiento de la tecnología”.

Los modelos generadores de texto alucinan porque en realidad no “saben” nada. Son sistemas estadísticos que identifican patrones en una serie de palabras y predicen qué palabras vienen a continuación en función de los innumerables ejemplos con los que se los entrena.

De ello se deduce que las respuestas de un modelo no son respuestas, sino simplemente predicciones de cómo se resolverá una pregunta. quería Se podría responder si estuviera presente en el conjunto de entrenamiento. Como consecuencia, los modelos tienden a jugar con la verdad. Un estudio descubrió que ChatGPT de OpenAI responde incorrectamente a las preguntas médicas la mitad de las veces.

La solución de Microsoft es un par de metamodelos con referencias cruzadas, similares a los de un editor de texto, diseñados para resaltar y reescribir las alucinaciones.

Un modelo clasificador busca fragmentos de texto generado por IA que puedan ser incorrectos, inventados o irrelevantes (alucinaciones). Si detecta alucinaciones, el clasificador incorpora un segundo modelo, un modelo de lenguaje, que intenta corregirlas de acuerdo con “documentos de base” específicos.

Créditos de la imagen: Microsoft

“La corrección puede mejorar significativamente la fiabilidad y la confianza en el contenido generado por IA, ya que ayuda a los desarrolladores de aplicaciones a reducir la insatisfacción de los usuarios y los posibles riesgos para la reputación”, afirmó el portavoz de Microsoft. “Es importante señalar que la detección de la base no resuelve el problema de la ‘precisión’, pero ayuda a alinear los resultados de la IA generativa con los documentos de base”.

Keyes tiene dudas sobre esto.

“Podría reducir algunos problemas”, dijeron, “pero también generará otros nuevos. Después de todo, la biblioteca de detección de alucinaciones de Correction también es presumiblemente capaz de alucinar”.

Cuando se le pidió que brindara información de fondo sobre los modelos Correction, el portavoz mencionó un artículo reciente de un equipo de investigación de Microsoft que describe las arquitecturas de preproducción de los modelos. Sin embargo, el artículo omite detalles clave, como qué conjuntos de datos se utilizaron para entrenar los modelos.

Mike Cook, investigador de la Queen Mary University especializado en IA, argumentó que incluso si Correction funciona como se anuncia, amenaza con agravar los problemas de confianza y explicabilidad en torno a la IA. El servicio podría detectar algunos errores, pero también podría inducir a los usuarios a una falsa sensación de seguridad, haciéndoles creer que los modelos dicen la verdad con más frecuencia de lo que realmente sucede.

“Microsoft, al igual que OpenAI y Google, han creado este problema en el que se confía en los modelos en situaciones en las que a menudo se equivocan”, afirmó. “Lo que Microsoft está haciendo ahora es repetir el error a un nivel superior. Digamos que esto nos lleva del 90 % de seguridad al 99 % de seguridad; el problema nunca estuvo realmente en ese 9 %. Siempre estará en el 1 % de errores que aún no estamos detectando”.

Cook añadió que también hay un ángulo comercial cínico en la forma en que Microsoft está incorporando Correction. La función es gratuita por sí sola, pero la “detección de la conexión a tierra” necesaria para detectar alucinaciones para que Correction la revise sólo es gratuita hasta 5.000 “registros de texto” al mes. Cuesta 38 centavos por cada 1.000 registros de texto después de eso.

Sin duda, Microsoft está bajo presión para demostrar a sus clientes (y accionistas) que vale la inversión en inteligencia artificial.

Solo en el segundo trimestre, el gigante tecnológico invirtió casi 19.000 millones de dólares en gastos de capital y equipos relacionados principalmente con la IA. Sin embargo, la empresa aún no ha obtenido ingresos significativos gracias a la IA. Un analista de Wall Street rebajó esta semana la calificación de las acciones de la empresa, citando dudas sobre su estrategia de IA a largo plazo.

Según un artículo publicado en The Information, muchos de los primeros usuarios han suspendido la implementación de la plataforma de inteligencia artificial generativa insignia de Microsoft, Microsoft 365 Copilot, debido a problemas de rendimiento y costos. En el caso de un cliente que usa Copilot para reuniones de Microsoft Teams, la IA supuestamente inventó a los asistentes e insinuó que las llamadas trataban sobre temas que en realidad nunca se discutieron.

La precisión y el potencial de alucinaciones se encuentran ahora entre las mayores preocupaciones de las empresas a la hora de probar herramientas de IA, según una encuesta de KPMG.

“Si este fuera un ciclo de vida normal de un producto, la IA generativa todavía estaría en la fase de I+D académica, y se estaría trabajando en ella para mejorarla y comprender sus fortalezas y debilidades”, dijo Cook. “En cambio, la hemos implementado en una docena de industrias. Microsoft y otros han subido a todos a su nuevo y emocionante cohete y están decidiendo construir el tren de aterrizaje y los paracaídas mientras se dirigen a su destino”.