Source2Synth: una nueva técnica de inteligencia artificial para la generación y conservación de datos sintéticos basada en fuentes de datos reales

Los modelos de lenguaje grandes (LLM) han demostrado un rendimiento impresionante en tareas como el procesamiento del lenguaje natural, la generación y la síntesis de textos. Sin embargo, aún encuentran grandes dificultades en circunstancias más complicadas. Se trata de tareas que exigen el uso de herramientas para resolver problemas, manejar datos estructurados o llevar a cabo razonamientos complejos de varios pasos. Por ejemplo, aunque los LLM son expertos en la comprensión de textos no estructurados, tienen problemas para utilizar e interpretar datos organizados, como hojas de cálculo, tablas y bases de datos. Además, con frecuencia obtienen un rendimiento inferior al esperado en tareas como la respuesta a preguntas de múltiples saltos (MHQA), que exige combinar datos de varias fuentes. De manera similar, los LLM aún encuentran un desafío para completar tareas que requieren el uso de herramientas, incluido el uso de SQL para responder consultas tabulares.

Para superar estos problemas, investigadores de Meta, la Universidad de Oxford y el University College de Londres han introducido una nueva técnica llamada Source2Synth. El principal beneficio de Source2Synth es su capacidad de impartir nuevas habilidades a los estudiantes de máster sin necesidad de anotaciones humanas costosas y que consumen mucho tiempo. Los enfoques convencionales para mejorar el rendimiento de los estudiantes de máster con frecuencia requieren una gran cantidad de anotaciones manuales, que son costosas y difíciles de escalar, en particular para trabajos complicados. Source2Synth ha eliminado este requisito, ya que crea datos sintéticos que imitan situaciones y procesos de pensamiento reales.

Para crear instancias sintéticas con pasos de razonamiento intermedios, Source2Synth utiliza una fuente de datos específica, como tablas de Internet o artículos relevantes. Dado que estos ejemplos se basan en datos reales, se garantiza que los datos sintéticos sean diversificados, realistas y factualmente correctos. El paso principal del método es crear un tema semilla, que puede ser una entidad o una declaración factual, y luego desarrollarlo en un ejemplo completo. El ejemplo contiene las instrucciones para la tarea, los pasos necesarios para resolver el problema mediante el razonamiento y la solución. A través de este procedimiento, Source2Synth puede generar puntos de datos intrincados y realistas que imitan la forma en que los LLM deben manejar datos estructurados o llevar a cabo actividades de varios pasos.

El método que utiliza Source2Synth para mejorar la calidad de los conjuntos de datos es un componente esencial. Los ejemplos de baja calidad pueden deteriorar el rendimiento del modelo y no todos los puntos de datos generados son igualmente valiosos. Para solucionar este problema, Source2Synth utiliza estrategias de filtrado determinadas por la capacidad de respuesta de las instancias sintéticas. Por ejemplo, el ejemplo se descarta si los datos generados no dan como resultado la respuesta correcta en un número determinado de ensayos. Este procedimiento de control de calidad garantiza que solo los ejemplos excelentes, aquellos que ayudan al estudiante de maestría en derecho a adquirir las habilidades necesarias, se conserven para la última ronda de ajustes.

La técnica se ha implementado en dos campos únicos y exigentes, que son los siguientes:

Respuesta a preguntas de múltiples saltos (MHQA): para responder a una sola pregunta, el LLM en este dominio analiza y sintetiza datos de varias fuentes. Cuando se evaluó Source2Synth en HotPotQA, un conjunto de datos creado para el razonamiento de múltiples saltos, superó a los modelos de referencia que se ajustaron mediante técnicas convencionales en un 22,57 %.

Responder preguntas con datos estructurados se conoce como respuesta a preguntas tabulares (TQA) y, con frecuencia, requiere consultas SQL para comunicarse con las tablas. WikiSQL es un conjunto de datos que se centra en el uso de SQL para responder preguntas sobre tablas. Source2Synth se probó en él y logró una mejora del 25,51 % con respecto a los modelos de referencia.

Los resultados han demostrado cómo Source2Synth puede aumentar el rendimiento de LLM en tareas desafiantes sin requerir grandes cantidades de anotaciones humanas en los conjuntos de datos. Para entrenar LLM en dominios que requieren razonamiento sofisticado y uso de herramientas, Source2Synth ofrece un método escalable al producir ejemplos realistas y fundamentados y filtrar rigurosamente el conjunto de datos para garantizar una alta calidad.

En conclusión, Source2Synth es un método único para impartir nuevos conocimientos a los estudiantes de posgrado, en particular en situaciones en las que la anotación humana no es factible. Esta estrategia resuelve las limitaciones actuales de los estudiantes de posgrado en tareas complicadas como el razonamiento de varios pasos y la manipulación de datos estructurados, al garantizar que solo se utilicen ejemplos de alta calidad para el ajuste fino y al basar la generación de datos sintéticos en fuentes del mundo real para su validación.

Echa un vistazo a la PapelTodo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro Subreddit con más de 50 000 millones de usuarios

⏩ ⏩ SEMINARIO WEB GRATUITO SOBRE IA: ‘SAM 2 para video: cómo optimizar sus datos’ (miércoles 25 de septiembre, 4:00 a. m. a 4:45 a. m. EST)

Tanya Malhotra es una estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, que cursa BTech en Ingeniería Informática con una especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la ciencia de datos con un buen pensamiento analítico y crítico, junto con un gran interés en adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de manera organizada.

⏩ ⏩ SEMINARIO WEB GRATUITO SOBRE IA: ‘SAM 2 para video: cómo optimizar sus datos’ (miércoles 25 de septiembre, 4:00 a. m. a 4:45 a. m. EST)