Cím

A látási modellek összehasonlítása: az ImageNet metrikák túlmutatása

Egy új tanulmány az MBZUAI és a Meta AI Research közreműködésével mélyebb betekintést nyújt a közös látási modellek összehasonlításába, túllépve az ImageNet metrikákon. A kutatás célja, hogy megadjon szakembereknek információkat ezeknek a modelljeknek az egyedi jellemzőiről, és segítse őket a megfelelő, előre tanított modellek kiválasztásában.

A tanulmány négy vezető számítógépes látási modellre összpontosít: a ConvNet (ConvNeXt) és a Vision Transformer (ViT), mindkét módszerrel felügyelt és CLIP módszerrel tréningezve. Ezeket a modelleket azért választották ki, mert hasonló paraméterszámmal és ImageNet-1K pontossággal rendelkeznek az összes tréningparadigmán belül.

Hagyományosan a modelleket olyan metrikák alapján értékelik, mint az ImageNet helyessége. Azonban a valós világ látási problémáinál gyakran figyelembe kell venni olyan tényezőket, mint a különböző kamerapozíciók, világítási körülmények és elrejtődések. Ennek kezelésére a kutatók különböző modelltulajdonságokat vizsgálnak, például a predikciós hibákat, a generalizálhatóságot, a kalibrációt és a tanult reprezentációk változatlanságát.

A tanulmány eredményei arra utalnak, hogy a különböző modellek jelentősen különböző viselkedési formákat mutatnak, kiemelve a teljes értékelést túllépő átfogó értékelés iránti szükségességet. Például a CLIP modellek kevesebb osztályozási hibát mutatnak az ImageNet teljesítményükhöz képest. Másrészről, a felügyelt modellek kiemelkednek az ImageNet robosztussági mutatókban és a kalibrációban. A ConvNeXt a ViT-hoz képest textúraorientáltabb, de jól teljesít szintetikus adatokon.

Egy jelentős felfedezés az, hogy a felügyelt ConvNeXt jobb teljesítményt nyújt a CLIP modellekhez képest a transzferálhatóság terén, és jól teljesít különböző mutatók szerint. Ez azt sugallja, hogy a különböző modellek különböző erősségekkel rendelkeznek attól függően, hogy milyen feladatot végeznek. A tanulmány hangsúlyozza az új mutatók és értékelő rendszerek kifejlesztésének fontosságát, amelyek környezet-specifikusabbak azért, hogy pontosabb modellek kiválasztása biztosítható legyen.

Összefoglalva, amikor a konkrét igényekhez megfelelő látási modellt választunk, kiemelten fontos figyelembe venni az ImageNet metrikákon túli mutatókat, és figyelembe venni a különböző modellek egyedi jellemzőit. A tanulmány értékes betekintést nyújt a szakembereknek, és további felfedezésekre ösztönzi a számítógépes látási területen.

The source of the article is from the blog radiohotmusic.it