Порівняння моделей зору: понад метрики ImageNet

Нове дослідження МВЗОШ та Meta AI Research досліджує порівняння поширених моделей зору з використанням метрик, що виходять за межі ImageNet. Метою дослідження є надання практикуючим спеціалістам інформації про внутрішні якості цих моделей та допомога в прийнятті обґрунтованих рішень при виборі попередньо навчених моделей.

Дослідження зосереджується на чотирьох провідних моделях у галузі комп’ютерного зору: ConvNet (ConvNeXt) та Vision Transformer (ViT), навчених як з використанням нагляду, так і з використанням методів CLIP. Ці моделі були вибрані, оскільки вони мають подібні кількості параметрів та точність на ImageNet-1K в усіх парадигмах навчання.

Традиційно моделі оцінюються на основі метрик, таких як правильність на ImageNet. Однак реальні проблеми зі зором у реальному світі часто вимагають урахування таких факторів, як різні пози камери, умови освітлення та перекриття. Дослідники для розв’язання цих проблем вивчали різні властивості моделей, такі як помилки прогнозів, загальна придатність, калібрування та незмінність вивчених представлень.

Відомості, отримані в ході дослідження, показують, що різні моделі проявляють значно різні поведінки, що підкреслює необхідність комплексного оцінювання поза межами однієї метрики. Наприклад, моделі CLIP мають менше помилок класифікації порівняно з їхніми результатами на ImageNet. З іншого боку, навчені моделі відзначаються випробуваннями на стійкість до даних ImageNet та калібрування. ConvNeXt, порівняно з ViT, більше спрямований на текстури, але добре справляється зі синтетичними даними.

Одним із значних відкриттів є те, що нагляданий ConvNeXt перевершує моделі CLIP за переносимістю та успішно справляється з різними випробуваннями. Це свідчить про те, що різні моделі мають різні переваги в залежності від розподілу завдань. Дослідження наголошує на важливості розробки нових випробувань та метрик оцінювання, які більш точно враховують конкретний контекст для забезпечення точного вибору моделі.

Висновок полягає у тому, що при виборі моделі зору для конкретних потреб необхідно враховувати метрики, які виходять за межі ImageNet, а також ураховувати відмінні якості, які проявляють різні моделі. Дослідження надає цінні уявлення для практикуючих спеціалістів та спонукає до подальшого дослідження у галузі комп’ютерного зору.

The source of the article is from the blog myshopsguide.com