Salīdzināt redzes modeļus: ārpus ImageNet metrikām

Jaunā pētījumā, ko veic MBZUAI un Meta AI Research, tiek aplūkoti kopējie redzes modeļi, pamatojoties uz metrikām, kas ārpus ImageNet. Pētījuma mērķis ir sniegt praktiķiem ieskatu šo modeļu iekšējās īpašībās un palīdzēt viņiem pieņemt informētas lēmumus, izvēloties iepriekš apmācītus modeļus.

Pētījums koncentrējas uz četriem labākajiem datorredzes modeļiem: ConvNet (ConvNeXt) un Vision Transformer (ViT), kas tiek apmācīti gan ar vadītu, gan CLIP metodi. Šie modeļi ir izvēlēti, jo tiem ir salīdzināmas parametru skaita un ImageNet-1K precizitātes vērtības visos apmācības paradigmu gadījumos.

Parasti modeļus novērtē, pamatojoties uz metrikām kā ImageNet pareizība. Tomēr reālās pasaules redzes problēmas bieži prasa ņemt vērā faktorus, piemēram, dažādus kameras stāvokļus, apgaismojuma apstākļus un slēpņus. Lai risinātu šo problēmu, pētnieki izpēta dažādas modeļu īpašības, piemēram, prognozēšanas kļūdas, vispārināmību, kalibrāciju un mācīto reprezentāciju nemainīgumus.

Pētījuma rezultāti atklāj, ka dažādi modeļi izrāda būtiski atšķirīgu darbību, akcentējot nepieciešamību pēc visaptverošas vērtēšanas, kas pārsniedz vienu vienīgu metriku. Piemēram, CLIP modeļiem ir mazāk klasifikācijas kļūdu salīdzinājumā ar ImageNet rezultātiem. No otras puses, vadītie modeļi izceļas ar ImageNet noturības testiem un kalibrāciju. ConvNeXt, salīdzinot ar ViT, ir vairāk tekstūras orientēts, bet veicas labi ar sintētisko datu.

Viena nozīmīga atklāsme ir tāda, ka vadītie ConvNeXt modeļi pārspēj CLIP modeļus pārnešamības ziņā un veicas labi dažādos testos. Tas liecina, ka atkarībā no uzdevuma sadalījuma atšķiras dažādu modeļu stiprās puses. Pētījums uzsver jaunu testu un novērtēšanas metriku izstrādes svarīgumu, kas ir vairāk saistīti ar konkrēto kontekstu, lai nodrošinātu precīzu modeļu izvēli.

Secinot, izvēloties redzes modeļu konkrētām vajadzībām, ir svarīgi ņemt vērā metrikas ārpus ImageNet un ņemt vērā dažādu modeļu izteiktās īpašības. Pētījums sniedz noderīgu informāciju praktiķiem un veicina turpmāku izpēti datorredzes jomā.

The source of the article is from the blog portaldoriograndense.com