Primerjava modelov za vizijo: Ocene onkraj metrik ImageNet

Nova študija avtorjev iz MBZUAI in Meta AI Research podrobno proučuje primerjavo pogostih modelov za vizijo na osnovi metrik onkraj ImageNet. Cilj raziskave je ponuditi praktikom vpogled v osnovne lastnosti teh modelov in jim pomagati pri sprejemanju informiranih odločitev pri izbiri iz že predhodno naučenih modelov.

Študija se osredotoča na štiri najboljše modele za računalniško vizijo: ConvNet (ConvNeXt) in Vision Transformer (ViT), ki so bili izobraženi tako z nadzorovanim kot tudi z uporabo metodo CLIP. Ti modeli so bili izbrani, ker imajo primerljivo število parametrov in natančnost na ImageNet-1K pri vseh izobraževalnih paradigmah.

Tradicionalno so modeli ovrednoteni na podlagi metrik, kot je pravilnost na ImageNet. Vendar pa realni vizualni problemi pogosto zahtevajo upoštevanje dejavnikov, kot so različni položaji kamere, svetlobni pogoji in zakritost. Zato so raziskovalci raziskali različne lastnosti modelov, kot so napake napovedovanja, splošna veljavnost, kalibracija in vzdržljivost naučenih predstav.

Ugotovitve raziskave kažejo, da imajo različni modeli izrazito različno vedenje, kar poudarja potrebo po celovitih ocenah, ki presegajo eno samo mero. Na primer, modeli CLIP imajo manj klasifikacijskih napak v primerjavi s svojo uspešnostjo na ImageNet. Po drugi strani pa nadzorovani modeli izstopajo pri testiranju robustnosti ImageNet in kalibraciji. ConvNeXt, v primerjavi z ViT, je bolj usmerjen v teksture, vendar se dobro odreže na sintetičnih podatkih.

Pomembno odkritje je, da nadzorovani ConvNeXt prekaša modele CLIP v smislu prenosljivosti in se dobro odreže na različnih preizkusih. To kaže, da imajo različni modeli različne prednosti glede na porazdelitev nalog. Raziskava poudarja pomen razvoja novih preizkusov in meril uspešnosti, ki so bolj specifični za kontekst, da se zagotovi natančna izbira modela.

V zaključku je ključno, da pri izbiri modela za vizijo za specifične potrebe upoštevamo metrike onkraj ImageNet in upoštevamo različne lastnosti različnih modelov. Študija ponuja dragocene vpoglede za praktike in spodbuja nadaljnje raziskovanje na področju računalniške vizije.

The source of the article is from the blog portaldoriograndense.com