Subgrupos: una biblioteca Python de código abierto para el descubrimiento eficiente y personalizable de subgrupos

El descubrimiento de subgrupos (SD) es un método de aprendizaje automático supervisado que se utiliza para el análisis exploratorio de datos con el fin de identificar relaciones (subgrupos) dentro de un conjunto de datos en relación con una variable de destino. Los componentes clave de los algoritmos SD incluyen la estrategia de búsqueda, que explora el espacio de búsqueda del problema, y la medida de calidad, que evalúa los subgrupos identificados. A pesar de la eficacia del SD y la variedad de algoritmos disponibles, solo algunas bibliotecas de Python ofrecen herramientas SD de última generación. Las bibliotecas existentes, como Vikamine y by subgroups, carecen de un soporte integral, lo que resalta la necesidad de una biblioteca confiable y bien documentada que integre algoritmos SD populares.

Investigadores del Med AI Lab de la Universidad de Murcia y del Instituto Murciano de Biosalud han presentado Subgroups, una biblioteca de Python de código abierto diseñada para simplificar los algoritmos SD. Creada para ser eficiente en Python nativo, la biblioteca proporciona una interfaz fácil de usar modelada a partir de scikit-learn, lo que la hace accesible a expertos y no expertos. La biblioteca garantiza implementaciones de algoritmos confiables basadas en investigaciones científicas establecidas, y su diseño modular permite la personalización y la expansión. Subgroups ya se emplea en múltiples artículos y proyectos de investigación y está disponible en GitHub, PyPI y Anaconda.org.

La biblioteca de subgrupos es una herramienta modular de Python diseñada para algoritmos SD, que sigue una arquitectura con elementos centrales, medidas de calidad, estructuras de datos y algoritmos. Incluye clases para componentes SD clave como selectores, patrones y subgrupos. La biblioteca implementa varios algoritmos SD, como VLSD y SDMap, junto con múltiples medidas de calidad, incluidas WRAcc y Binomial Tests. Admite modos silenciosos y de registro para una salida flexible y ofrece pruebas unitarias exhaustivas para garantizar una funcionalidad correcta. Creada con Python 3 y aprovechando pandas, la biblioteca está diseñada para una extensión sencilla y un rendimiento confiable del algoritmo.

La biblioteca de subgrupos ofrece un ecosistema completo con manuales y ejemplos que permiten a los usuarios y desarrolladores familiarizarse con las técnicas de SD y la implementación de la biblioteca. Proporciona ejemplos prácticos, como el algoritmo VLSD, y es de código abierto, lo que permite a los investigadores aplicar algoritmos de SD clave en varios dominios. Esta versatilidad permite que la biblioteca se utilice tanto en investigaciones pasadas como en las actuales, donde las herramientas de SD no estaban disponibles anteriormente, y contribuye a generar nuevos conocimientos científicos.

Además de ser un recurso valioso para la investigación, la biblioteca también se utiliza en proyectos del mundo real, ya que se ha descargado más de 7100 veces y ha aparecido en varios artículos científicos. Permite una comparación y evaluación justa de algoritmos de aprendizaje automático dentro de un marco unificado, lo que evita la necesidad de combinar varias bibliotecas de aprendizaje automático. La biblioteca de subgrupos evoluciona continuamente y ofrece el potencial de una mayor expansión y la integración de nuevos algoritmos. Ya se ha aplicado en varios proyectos de investigación y colaboraciones notables, lo que demuestra su creciente impacto en contextos académicos y prácticos.

La biblioteca Subgroups Library es una herramienta Python de código abierto que simplifica el uso de algoritmos SD en el aprendizaje automático y la ciencia de datos. Entre sus características principales se incluyen una mayor eficiencia gracias a su implementación nativa en Python, una interfaz fácil de usar basada en scikit-learn e implementaciones de algoritmos confiables basadas en publicaciones científicas. El diseño modular de la biblioteca permite una fácil personalización, lo que permite a los usuarios agregar nuevos algoritmos, medidas de calidad y estructuras de datos. Ya se ha aplicado en numerosos artículos y proyectos de investigación, lo que destaca su eficacia y adaptabilidad en varios dominios. Las actualizaciones futuras incluirán algoritmos SD y estrategias de búsqueda adicionales.

Echa un vistazo a la Papel y GitHubTodo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro Subreddit con más de 50 000 millones de usuarios

⏩ ⏩ SEMINARIO WEB GRATUITO SOBRE IA: ‘SAM 2 para video: cómo optimizar sus datos’ (miércoles 25 de septiembre, 4:00 a. m. a 4:45 a. m. EST)

Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en el IIT Madrás, es un apasionado de la aplicación de la tecnología y la IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una perspectiva nueva a la intersección de la IA y las soluciones de la vida real.

⏩ ⏩ SEMINARIO WEB GRATUITO SOBRE IA: ‘SAM 2 para video: cómo optimizar sus datos’ (miércoles 25 de septiembre, 4:00 a. m. a 4:45 a. m. EST)