BEAL: un método bayesiano de aprendizaje activo profundo para una clasificación profunda y eficiente de textos con múltiples etiquetas
La clasificación de texto de etiquetas múltiples (MLTC) asigna múltiples etiquetas relevantes a un texto. Si bien los modelos de aprendizaje profundo han logrado resultados de vanguardia en esta área, requieren grandes cantidades de datos etiquetados, lo cual es costoso y requiere mucho tiempo. El aprendizaje activo ayuda a optimizar este proceso al seleccionar las muestras sin etiquetar más informativas para anotarlas, lo que reduce el esfuerzo de etiquetado. Sin embargo, la mayoría de los métodos de aprendizaje activo existentes están diseñados para modelos tradicionales de etiqueta única y no se aplican directamente a modelos profundos de etiquetas múltiples. Dada la complejidad de las tareas de etiquetas múltiples y el alto costo de las anotaciones, existe la necesidad de técnicas de aprendizaje activo adaptadas a la clasificación profunda de etiquetas múltiples.
El aprendizaje activo permite que un modelo solicite etiquetas para las muestras sin etiquetar más informativas, lo que reduce los costos de anotación. Los enfoques comunes de aprendizaje activo incluyen la síntesis de consultas de membresía, el muestreo selectivo basado en flujos y el muestreo basado en grupos, centrándose en este último en este trabajo. El muestreo basado en la incertidumbre se utiliza a menudo en la clasificación de etiquetas múltiples, pero aún deben resolverse desafíos al aplicar el aprendizaje activo a modelos profundos de etiquetas múltiples. Si bien los métodos bayesianos de aprendizaje profundo se han mostrado prometedores para la estimación de la incertidumbre, la mayoría de las investigaciones se han centrado en tareas de etiqueta única.
Investigadores del Instituto de Automatización, la Academia de Ciencias de China y otras instituciones proponen BEAL, un método de aprendizaje activo profundo para MLTC. BEAL utiliza el aprendizaje profundo bayesiano con abandono para inferir la distribución predictiva posterior del modelo e introduce una nueva función de adquisición esperada basada en la confianza para seleccionar muestras inciertas. Los experimentos con un modelo MLTC basado en BERT en conjuntos de datos de referencia como AAPD y StackOverflow muestran que BEAL mejora la eficiencia del entrenamiento y logra la convergencia con menos muestras etiquetadas. Este método se puede extender a otras tareas de clasificación de etiquetas múltiples y reduce significativamente los requisitos de datos etiquetados en comparación con los métodos existentes.
La metodología introduce un marco de aprendizaje activo en modo por lotes para una clasificación profunda de texto con múltiples etiquetas. Comenzando con un pequeño conjunto de datos etiquetados, el marco selecciona iterativamente muestras sin etiquetar para anotarlas en función de una función de adquisición. Esta función elige muestras con la confianza esperada más baja, medida por la incertidumbre predictiva del modelo. El aprendizaje profundo bayesiano calcula la distribución predictiva posterior utilizando la deserción de Monte Carlo, aproximando la confianza del modelo. La función de adquisición selecciona un lote de muestras con la confianza esperada más baja para el etiquetado, lo que mejora la eficiencia del modelo al reducir la necesidad de datos etiquetados. El proceso continúa hasta que el rendimiento del modelo converge.
En este estudio, los autores evalúan el método BEAL para una clasificación profunda de texto con múltiples etiquetas utilizando dos conjuntos de datos de referencia: AAPD y StackOverflow. El proceso se compara con varias estrategias de aprendizaje activo, incluido el muestreo aleatorio, BADGE, BALD, Core-Set y el enfoque de datos completos. BEAL supera a estos métodos al seleccionar las muestras más informativas en función de la distribución predictiva posterior, lo que reduce la necesidad de datos etiquetados. Los resultados muestran que BEAL logra el mayor rendimiento con menos muestras etiquetadas que otros, requiriendo solo el 64 % de las muestras etiquetadas en AAPD y el 40 % en StackOverflow. Un estudio de ablación destaca la ventaja de utilizar el aprendizaje profundo bayesiano en BEAL.
En conclusión, el estudio presenta BEAL, un método de aprendizaje activo para modelos MLTC profundos. BEAL utiliza el aprendizaje profundo bayesiano para inferir la distribución predictiva posterior y define una función de adquisición esperada basada en la confianza para seleccionar muestras inciertas para el entrenamiento. Los resultados experimentales muestran que BEAL supera a otros métodos de aprendizaje activo, lo que permite un entrenamiento de modelos más eficiente con menos muestras etiquetadas. Esto es valioso en aplicaciones del mundo real donde es difícil obtener datos etiquetados a gran escala. El trabajo futuro explorará la integración de métodos basados en la diversidad para reducir aún más los datos etiquetados necesarios para una formación eficaz de los modelos MLTC.
Mira el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.
(SEMINARIO WEB GRATUITO sobre IA) Implementación del procesamiento inteligente de documentos con GenAI en servicios financieros y transacciones inmobiliarias– Del marco a la producción
A Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en IIT Madras, le apasiona aplicar la tecnología y la inteligencia artificial para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.
🐝🐝 Evento de LinkedIn, ‘Una plataforma, posibilidades multimodales’, donde el director ejecutivo de Encord, Eric Landau, y el director de ingeniería de productos, Justin Sharps, hablarán sobre cómo están reinventando el proceso de desarrollo de datos para ayudar a los equipos a construir rápidamente modelos de IA multimodales innovadores.