Mistral lanza una API de moderación
La startup de IA Mistral ha lanzado una nueva API para moderación de contenido.
La API, que es la misma API que impulsa la moderación en la plataforma chatbot Le Chat de Mistral, se puede adaptar a aplicaciones y estándares de seguridad específicos, dice Mistral. Está impulsado por un modelo perfeccionado (Ministral 8B) entrenado para clasificar texto en una variedad de idiomas, incluidos inglés, francés y alemán, en una de nueve categorías: sexual, odio y discriminación, violencia y amenazas, contenido peligroso y criminal. , autolesiones, salud, finanzas, leyes e información de identificación personal.
La API de moderación se puede aplicar tanto a texto sin formato como a texto conversacional, dice Mistral.
“En los últimos meses, hemos visto un creciente entusiasmo en toda la industria y la comunidad de investigación por los nuevos sistemas de moderación basados en IA, que pueden ayudar a que la moderación sea más escalable y robusta en todas las aplicaciones”, escribió Mistral en una publicación de blog. “Nuestro clasificador de moderación de contenido aprovecha las categorías de políticas más relevantes para crear barreras de seguridad efectivas e introduce un enfoque pragmático para la seguridad del modelo al abordar los daños generados por el modelo, como el asesoramiento no calificado y la PII”.
Los sistemas de moderación impulsados por IA son útiles en principio. Pero también son susceptibles a los mismos sesgos y fallas técnicas que afectan a otros sistemas de IA.
Por ejemplo, algunos modelos entrenados para detectar toxicidad ven frases en inglés vernáculo afroamericano (AAVE), la gramática informal utilizada por algunos estadounidenses negros, como desproporcionadamente “tóxicas”. Los estudios han encontrado que las publicaciones en las redes sociales sobre personas con discapacidades también podrían ser marcadas como más negativas o tóxicas según los modelos de detección de toxicidad y sentimiento público comúnmente utilizados.
Mistral afirma que su modelo de moderación es muy preciso, pero también admite que es un trabajo en progreso.
“Estamos trabajando con nuestros clientes para crear y compartir herramientas de moderación escalables, livianas y personalizables”, dijo la compañía, “y continuaremos interactuando con la comunidad de investigación para contribuir con avances de seguridad al campo más amplio”.