Sammenligning af Vision-modeller: Ud over ImageNet-metriker

En ny undersøgelse udført af MBZUAI og Meta AI Research dykker ned i sammenligningen af almindelige vision-modeller baseret på metrikker ud over ImageNet. Målet med forskningen er at give praktikere indsigt i de iboende egenskaber ved disse modeller og hjælpe dem med at træffe informerede beslutninger, når de vælger fortrænede modeller.

Undersøgelsen fokuserer på fire topmodeller inden for computer vision: ConvNet (ConvNeXt) og Vision Transformer (ViT), der er trænet ved hjælp af både overvågede og CLIP-metoder. Disse modeller blev valgt, fordi de har sammenlignelige parametertællinger og ImageNet-1K nøjagtighed på tværs af alle træningsparadigmer.

Traditionelt blev modeller evalueret ud fra metrikker som ImageNet-korrekhed. Dog kræver virkelige vision-problemer ofte overvejelse af faktorer som forskellige kameravinkler, lysforhold og afskærmninger. For at imødekomme dette undersøger forskerne forskellige modelattributter, såsom forudsigelsesfejl, generaliserbarhed, kalibrering og invarianser af lærte repræsentationer.

Undersøgelsens resultater afslører, at forskellige modeller udviser betydeligt varierende adfærd, hvilket understreger behovet for en omfattende evaluering ud over en enkelt metrik. For eksempel har CLIP-modeller færre klassifikationsfejl sammenlignet med deres ImageNet-ydeevne. Til gengæld udmærker overvågede modeller sig i ImageNet-robusthedsbenchmark og kalibrering. ConvNeXt, sammenlignet med ViT, er mere teksturbaseret, men klarer sig godt på syntetiske data.

En væsentlig opdagelse er, at overvågede ConvNeXt-præstationen overgår CLIP-modellerne i forhold til overførbarhed og klarer sig godt på forskellige benchmarks. Dette antyder, at forskellige modeller har forskellige styrker afhængigt af opgavefordelingen. Undersøgelsen lægger vægt på vigtigheden af at udvikle nye benchmarks og evalueringmetrikker, der er mere kontekstspecifikke for at sikre præcis modelvalg.

Konklusionen er, at det er afgørende at overveje metrikker ud over ImageNet og tage hensyn til de karakteristiske egenskaber, der vises af forskellige vision-modeller, når man vælger en model til specifikke behov. Undersøgelsen giver værdifuld indsigt for praktikere og opmuntrer til yderligere udforskning inden for området for computer vision.

The source of the article is from the blog xn--campiahoy-p6a.es