Comparación de modelos de visión: más allá de las métricas de ImageNet

Un nuevo estudio realizado por MBZUAI y Meta AI Research profundiza en la comparación de modelos de visión comunes basados en métricas más allá de ImageNet. El objetivo de la investigación es proporcionar a los profesionales información sobre las cualidades intrínsecas de estos modelos y ayudarles a tomar decisiones informadas al seleccionar modelos pre-entrenados.

El estudio se centra en cuatro modelos principales en visión por computadora: ConvNet (ConvNeXt) y Vision Transformer (ViT), entrenados utilizando métodos supervisados y CLIP. Estos modelos fueron elegidos porque tienen conteos de parámetros comparables y una precisión de ImageNet-1K en todos los paradigmas de entrenamiento.

Tradicionalmente, los modelos se evalúan según métricas como la corrección de ImageNet. Sin embargo, los problemas de visión en el mundo real a menudo requieren considerar factores como diferentes posturas de la cámara, condiciones de iluminación y oclusiones. Para abordar esto, los investigadores exploran diversas propiedades del modelo, como errores de predicción, generalización, calibración e invariancias de las representaciones aprendidas.

Los hallazgos del estudio revelan que diferentes modelos exhiben comportamientos significativamente variados, resaltando la necesidad de una evaluación integral más allá de una sola métrica. Por ejemplo, los modelos CLIP tienen menos errores de clasificación en comparación con su rendimiento en ImageNet. Por otro lado, los modelos supervisados destacan en las pruebas de robustez y calibración de ImageNet. ConvNeXt, en comparación con ViT, tiene una mayor tendencia a la textura pero se desempeña bien en datos sintéticos.

Un descubrimiento significativo es que ConvNeXt supervisado supera a los modelos CLIP en términos de transferibilidad y se desempeña bien en varias pruebas. Esto sugiere que diferentes modelos tienen fortalezas diferentes según la distribución de tareas. El estudio enfatiza la importancia de desarrollar nuevos puntos de referencia y métricas de evaluación más específicas al contexto para garantizar una selección precisa del modelo.

En conclusión, al elegir un modelo de visión para necesidades específicas, es crucial considerar métricas más allá de ImageNet y tener en cuenta las cualidades distintivas que exhiben diferentes modelos. El estudio proporciona información valiosa para los profesionales y fomenta una mayor exploración en el campo de la visión por computadora.

The source of the article is from the blog yanoticias.es