Investigadores de UC Berkeley presentan la UnSAM en visión por computadora: un nuevo paradigma de segmentación con datos mínimos, logrando resultados de vanguardia sin anotación humana

Los modelos basados en transformadores en tareas de segmentación han iniciado una nueva transformación en el ámbito de la visión por computadora. El modelo Segment Anything de Meta ha demostrado ser un punto de referencia debido a su rendimiento robusto y exquisito. SAM ha demostrado ser muy exitoso a medida que la segmentación supervisada continúa ganando popularidad en campos como la medicina, la defensa y la industria. Sin embargo, todavía necesita etiquetado manual, lo que hace que el entrenamiento sea una tarea difícil. La anotación humana es engorrosa y poco confiable para aplicaciones sensibles, además de costosa y requiere mucho tiempo. Las anotaciones también establecen un equilibrio entre precisión y escalabilidad, estableciendo un límite para explotar el potencial de la arquitectura. SA-1B, a pesar de su enorme tamaño, contiene sólo 11 millones de imágenes con etiquetas sesgadas. Estos problemas exigen un enfoque sin etiquetas que ofrezca un rendimiento paralelo al SAM pero a un costo mucho menor.

Se han logrado avances activos en esta dirección con transformadores autosupervisados y segmentación de disparo cero habilitada rápidamente. TokenCut y LOST fueron los esfuerzos preliminares seguidos por CutLER. CutLER generó pseudomáscaras de calidad para múltiples instancias y aprendió más sobre estas máscaras. VideoCutLER amplió esta funcionalidad a los vídeos.

Investigadores de UC Berkeley desarrollaron SAM no supervisado (UnSAM)un nuevo método no supervisado para abordar el desafío anterior. SAM no supervisado utiliza una estrategia de divide y vencerás para identificar estructuras jerárquicas en escenas visuales y crear máscaras de segmentación con distintos niveles de granularidad según las estructuras jerárquicas. Las estrategias de agrupamiento Top-Down y Bottom-Up de UnSAM generan máscaras que capturan los detalles más sutiles, asegurando un rendimiento paralelo con SA-1B, su contraparte humana. Al proporcionar etiquetas terrestres, estas máscaras permiten una segmentación completa e interactiva que captura minucias mejor que SAM.

Sería digno de mención hablar sobre CutLER antes de profundizar en el meollo de la cuestión de UnSAM. CutLER presenta una canalización de cortar y aprender con un método basado en corte normalizado, MaskCut, que genera máscaras de alta calidad con la ayuda de una matriz de similitud de coseno por parches obtenida de ViT no supervisado. MasKCut funciona de forma iterativa, aunque enmascara parches de instancias previamente segmentadas. Esta metodología sienta las bases de la estrategia de división de la UnSAM. Aprovecha el método basado en Cortes Normalizados (NCuts) de CutLER para obtener máscaras semánticas y de nivel de instancia a partir de imágenes sin editar sin etiquetar. Un umbral filtra aún más las máscaras generadas para evitar el ruido. La estrategia de conquista captura las sutilezas, que fusionan iterativamente las máscaras generales generadas en partes más simples. La supresión no máxima elimina la redundancia posterior a la fusión. La estrategia de agrupamiento ascendente de UnSAM lo diferencia de las tareas anteriores y le permite “conquistar” otras obras mientras captura los detalles más finos.

UnSAM superó a SAM en más de un 6,7 % en AR y un 3,9 % en AP en el conjunto de datos SA-1B cuando se entrenó con el 1 % del conjunto de datos. Su rendimiento es comparable cuando SAM se entrena en el conjunto de datos de imágenes completo de 11 M, diferenciándose en apenas un 1 % considerando el tamaño del conjunto de datos de imágenes de 0,4 M. En promedio, la UnSAM superó al anterior SOTA en un 11,0% en AR. Cuando se evalúa en PartImageNet y PACO, UnSAM supera a SOTA en un 16,6% y 12,6% respectivamente. Además, UnSAM+, que combina la precisión del SA-1B (conjunto de datos del 1%) con las complejidades de las máscaras no supervisadas, supera incluso al SAM en un 1,3%. Incluso con una columna vertebral tres veces más pequeña.

En conclusión, UnSAM demuestra que se pueden obtener resultados de alta calidad sin utilizar enormes conjuntos de datos creados mediante esfuerzos humanos intensivos. Se podrían utilizar arquitecturas pequeñas y livianas junto con máscaras generadas por UnSAM para avanzar en campos sensibles como la medicina y la ciencia. Puede que UnSAM no sea el big bang de la segmentación, pero parece mostrar el reino cósmico de la luz de segmentación, marcando el comienzo de una nueva era de investigación en el aprendizaje visual no supervisado.

Mira el Papel, Proyectoy GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro SubReddit de más de 50.000 ml

¿Quiere estar frente a más de 1 millón de lectores de IA? Trabaja con nosotros aquí

Adeeba Alam Ansari actualmente está cursando su doble titulación en el Instituto Indio de Tecnología (IIT) Kharagpur, donde obtuvo una licenciatura en Ingeniería Industrial y una maestría en Ingeniería Financiera. Con un gran interés en el aprendizaje automático y la inteligencia artificial, es una lectora ávida y una persona curiosa. Adeeba cree firmemente en el poder de la tecnología para empoderar a la sociedad y promover el bienestar a través de soluciones innovadoras impulsadas por la empatía y una profunda comprensión de los desafíos del mundo real.