Vergelijking van Vision-modellen: Voorbij ImageNet-metrics

Een nieuw onderzoek van MBZUAI en Meta AI Research gaat dieper in op het vergelijken van gangbare vision-modellen op basis van metrics die verder reiken dan ImageNet. Het doel van het onderzoek is om beoefenaars inzicht te geven in de intrinsieke kwaliteiten van deze modellen en hen te helpen weloverwogen beslissingen te nemen bij het selecteren van voorgeleerde modellen.

Het onderzoek richt zich op vier topmodellen in computer vision: ConvNet (ConvNeXt) en Vision Transformer (ViT), getraind met zowel begeleide als CLIP-methoden. Deze modellen zijn gekozen omdat ze vergelijkbare parameter tellingen en ImageNet-1K nauwkeurigheid hebben in alle trainingsparadigma’s.

Traditioneel worden modellen geëvalueerd op basis van metrics zoals ImageNet-correctheid. Echter, visuele problemen in de echte wereld vereisen vaak het overwegen van factoren zoals verschillende cameraposities, lichtomstandigheden en occlusies. Om dit aan te pakken, onderzoeken de onderzoekers verschillende model eigenschappen, zoals voorspellingsfouten, generaliseerbaarheid, kalibratie en invarianties van geleerde representaties.

De bevindingen van het onderzoek laten zien dat verschillende modellen aanzienlijk uiteenlopend gedrag vertonen, wat wijst op de noodzaak van een uitgebreide evaluatie voorbij één enkele metric. Zo hebben CLIP-modellen minder classificatiefouten in vergelijking met hun prestaties op ImageNet. Aan de andere kant blinken begeleide modellen uit in ImageNet robuustheidsbenchmarks en kalibratie. ConvNeXt is, in vergelijking met ViT, meer gericht op texturen maar presteert goed op synthetische data.

Een belangrijke ontdekking is dat begeleide ConvNeXt beter presteert dan CLIP-modellen wat betreft overdraagbaarheid en goed presteert op verschillende benchmarks. Dit suggereert dat verschillende modellen verschillende sterke punten hebben afhankelijk van de taakverdeling. Het onderzoek benadrukt het belang van het ontwikkelen van nieuwe benchmarks en evaluatiemetrics die meer contextspecifiek zijn om een nauwkeurige modelselectie te waarborgen.

Concluderend is het bij het kiezen van een vision-model voor specifieke behoeften cruciaal om metrics voorbij ImageNet te overwegen en rekening te houden met de kenmerkende eigenschappen die verschillende modellen vertonen. Het onderzoek biedt waardevolle inzichten voor beoefenaars en moedigt verder onderzoek aan op het gebied van computer vision.

The source of the article is from the blog agogs.sk