Сравняване на модели за визуална анализи: освен метрики от ImageNet

Новото изследване, проведено от MBZUAI и Meta AI Research, разглежда сравнително често срещани модели за визуална анализа, извън метриките от ImageNet. Целта на изследването е да предостави на практици информация за вътрешните качества на тези модели и да ги помогне при избора на предварително обучени модели.

Изследването се фокусира върху четири водещи модела в компютърната визия: ConvNet (ConvNeXt) и Vision Transformer (ViT), които са обучени както с надзорени, така и с CLIP методи. Тези модели са избрани, защото разполагат със сравним брой параметри и точност на ImageNet-1K при всички методи на обучение.

Традиционно моделите се оценяват базирано на метрики като правилността на ImageNet. Все пак, реалните проблеми във визуалната анализа често изискват вземане предвид фактори като различни позиции на камерата, условия на осветление и закривания. За да се справят с това, изследователите проучват различни свойства на моделите, като грешки в прогнозата, обобщаемост, калибриране и неизменяемости в научените представяния.

Резултатите от изследването показват, че различните модели проявяват значително различно поведение, което подчертава необходимостта от комплексна оценка, извън една единствена метрика. Например CLIP моделите имат по-малко грешки при класификацията в сравнение със своята производителност на ImageNet. От друга страна, надзорен модел се отличава по отношение на устойчивостта на ImageNet и калибрирането. ConvNeXt, в сравнение с ViT, има по-голяма насоченост към текстури, но се справя добре със синтетични данни.

Една важна откритие е, че надзорният ConvNeXt предскача CLIP моделите по отношение на преносимостта и се справя добре с различни бенчмарк тестове. Това подсказва, че различните модели имат различни силни страни в зависимост от разпределението на задачите. Изследването подчертава важността на разработването на нови бенчмарк тестове и метрики за оценка, които са по-контекстоспецифични, за да се гарантира точен избор на модел.

Заключително, при избор на модел за визуална анализа за конкретни нужди е от съществено значение да се вземат предвид метрики от ImageNet и да се вземат предвид различните характеристики на различните модели. Изследването предоставя ценни полезни насоки за практици и насърчава по-нататъшно изследване в областта на компютърната визия.

The source of the article is from the blog portaldoriograndense.com