¿Qué pasaría si los vídeos faciales pudieran medir tu ritmo cardíaco? Este artículo sobre inteligencia artificial presenta PhysMamba y su eficiente solución fisiológica remota

La medición precisa de señales fisiológicas como la frecuencia cardíaca (FC) y la variabilidad de la frecuencia cardíaca (VFC) a partir de vídeos faciales mediante fotopletismografía remota (rPPG) presenta varios desafíos importantes. La rPPG, una técnica sin contacto que analiza cambios sutiles en el volumen sanguíneo a partir de vídeos faciales, ofrece una solución prometedora para el control no invasivo de la salud. Sin embargo, capturar estas señales minúsculas con precisión es difícil debido a cuestiones como las condiciones de iluminación variables, los movimientos faciales y la necesidad de modelar dependencias de largo alcance en secuencias de vídeo extendidas. Estos desafíos complican la extracción de señales fisiológicas precisas a partir de vídeos faciales, lo que es esencial para aplicaciones en tiempo real en contextos médicos y de bienestar.

Los métodos actuales para la medición de rPPG se basan en gran medida en redes neuronales convolucionales (CNN) y modelos basados ​​en Transformers. Las CNN son muy eficaces para extraer características espaciales locales de fotogramas de vídeo, pero tienen dificultades para capturar las dependencias temporales de largo alcance necesarias para una estimación precisa de la frecuencia cardíaca. Si bien los Transformers abordan esta limitación aprovechando los mecanismos de autoatención para capturar las dependencias espaciotemporales globales, sufren una alta complejidad computacional e ineficiencia al manejar secuencias de vídeo largas. Ambos enfoques también enfrentan desafíos en el manejo del ruido causado por variaciones en la iluminación o los movimientos faciales, que pueden afectar gravemente la precisión y la fiabilidad de las mediciones basadas en rPPG en escenarios del mundo real.

Investigadores de la Universidad Great Bay presentan PhysMambaun marco innovador diseñado para abordar las deficiencias de los métodos existentes en la medición fisiológica. PhysMamba se basa en Diferencia temporal Mamba (TD-Mamba) bloque, que combina Mamba bidireccional temporal (Bi-Mamba) con Convolución de Diferencia Temporal (TDC) para capturar dinámicas temporales locales de grano fino y dependencias de largo alcance a partir de videos faciales. Arquitectura SlowFast Procesa características temporales de múltiples escalas, integrando flujos lentos y rápidos para reducir la redundancia temporal y, al mismo tiempo, mantener las características fisiológicas críticas. Esta combinación de tecnologías permite que el modelo maneje de manera eficiente secuencias de video largas y, al mismo tiempo, mejore la precisión en la estimación de la señal rPPG, lo que marca una mejora significativa con respecto a los enfoques convencionales de CNN y Transformer.

La arquitectura de PhysMamba consta de un tronco poco profundo para la extracción de características inicial, seguido de tres bloques TD-Mamba y un cabezal de predicción rPPG. Bloque TD-Mamba incorpora TDC para refinar las características temporales locales, Bi-Mamba para capturar dependencias de largo alcance y canaliza la atención para reducir la redundancia entre los canales de características. Arquitectura SlowFast procesa características temporales lentas y rápidas en paralelo, mejorando la capacidad del modelo para capturar dinámicas espacio-temporales tanto de corto como de largo plazo. Este método se probó en tres conjuntos de datos de referencia (PURE, UBFC-rPPG y MMPD) utilizando métricas de evaluación estándar, incluidas Error absoluto medio (EMA), Error cuadrático medio (RMSE)y Coeficiente de correlación de Pearson (ρ)con frecuencia cardíaca medida en pulsaciones por minuto (ppm).

PhysMamba logró mejoras notables en todos los conjuntos de datos y métricas probados. En el conjunto de datos PURE, arrojó un MAE de 0,25 lpm y RMSE de 0,4 lpmsuperando a modelos anteriores como PhysFormer y EfficientPhys. El método también tuvo un desempeño sólido en el conjunto de datos UBFC-rPPG, logrando un MAE de 0,54 lpm y RMSE de 0,76 lpmlo que confirma su eficacia en diversas condiciones del mundo real. En evaluaciones entre conjuntos de datos, PhysMamba superó constantemente a los modelos de la competencia al capturar con precisión cambios fisiológicos sutiles y, al mismo tiempo, mantener la eficiencia computacional, lo que lo hace muy adecuado para el monitoreo de la frecuencia cardíaca en tiempo real a partir de videos faciales.

PhysMamba presenta una solución potente para la medición fisiológica sin contacto, al abordar las limitaciones clave en la captura de dependencias espacio-temporales de largo alcance a partir de videos faciales. La integración del bloque TD-Mamba y la arquitectura SlowFast de doble flujo permite una extracción de señal rPPG más precisa y eficiente, lo que da como resultado un rendimiento superior en múltiples conjuntos de datos. Al avanzar en la estimación de frecuencia cardíaca basada en rPPG de última generación, PhysMamba muestra un gran potencial para aplicaciones en monitoreo fisiológico no invasivo en tiempo real en el ámbito de la atención médica y más allá.


Echa un vistazo a la Papel y CódigosTodo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro Subreddit con más de 50 000 millones de usuarios

⏩ ⏩ SEMINARIO WEB GRATUITO SOBRE IA: ‘SAM 2 para video: cómo optimizar sus datos’ (miércoles 25 de septiembre, 4:00 a. m. a 4:45 a. m. EST)


Aswin AK es pasante de consultoría en MarkTechPost. Está cursando su doble titulación en el Instituto Indio de Tecnología de Kharagpur. Le apasionan la ciencia de datos y el aprendizaje automático, y cuenta con una sólida formación académica y experiencia práctica en la resolución de desafíos reales interdisciplinarios.

⏩ ⏩ SEMINARIO WEB GRATUITO SOBRE IA: ‘SAM 2 para video: cómo optimizar sus datos’ (miércoles 25 de septiembre, 4:00 a. m. a 4:45 a. m. EST)

Leer más
Back to top button