مطالعهای تازه توسط MBZUAI و Meta AI Research بررسی عملکرد مدلهای متداول بینایی بر اساس معیارهایی فراتر از ImageNet را بررسی میکند. هدف از این تحقیق، ارائه بینشهایی درباره ویژگیهای ذاتی این مدلها برای ارائهدهندگان راهکارها است و در انتخاب مدلهای پیش آموز شده به آنها کمک میکند.
این مطالعه بر چهار مدل برتر در بین بینایی ماشین تمرکز میکند: ConvNet (ConvNeXt) و Vision Transformer(ViT) که با استفاده از روشهای نظارت شده و CLIP آموزش دیدهاند. این مدلها به دلیل داشتن تعداد پارامترهای مقایسهپذیر و دقت ImageNet-1K در همه روشهای آموزشی، انتخاب شدهاند.
از سنتها، مدلها بر اساس معیارهایی مانند صحت ImageNet ارزیابی میشوند. اما در مسائل واقعی بینایی، عواملی مانند انواع حالات دوربین، شرایط نورپردازی و مخفی کنندگی باید در نظر گرفته شوند. برای پردازش این موضوع، محققان خصوصیات مدلهای مختلف را مانند خطاهای پیشبینی، عمومیت، کالیبراسیون و عدم تغییرپذیری نمایشهای یادگرفتهشده، بررسی میکنند.
نتایج مطالعه نشان میدهد که مدلهای مختلف رفتارهای متفاوتی دارند، که نیازمند ارزیابی جامع به گونهای است که فراتر از یک معیار واحد باشد. به عنوان مثال، مدلهای CLIP نسبت به عملکرد ImageNet خطاهای طبقهبندی کمتری دارند. از طرف دیگر، مدلهای نظارت شده در آزمونهای مقیاسپذیری و کالیبراسیون ImageNet عملکرد بیشتری دارند. ConvNeXt نسبت به ViT، تمرکز بیشتری بر روی بافت دارد اما در دادههای ترکیبی عملکرد خوبی دارد.
یک کشف بزرگ این است که ConvNeXt نظارت شده در انتقال و عملکرد برخی از آزمونها بهتر از مدلهای CLIP عمل میکند. این نشان میدهد که مدلهای مختلف قدرتهای متفاوتی دارند بسته به توزیع وظیفه. مطالعه بر اهمیت توسعه آزمونها و معیارهای ارزیابی جدیدی که بیشتر منطبق بر زمینه مورد بررسی باشند، تأکید دارد تا انتخاب دقیق مدلها تضمین شود.
به طور خلاصه، در انتخاب مدل بینایی برای نیازهای خاص، ضروری است که به معیارهایی فراتر از ImageNet توجه کرده و ویژگیهای متمایزی که توسط مدلهای مختلف نشان داده میشوند را مدنظر قرار دهید. این مطالعه برای ارائهدهندگان راهکارها نظرات مفیدی ارائه میدهد و برای بررسیهای بیشتر در حوزه بینایی ماشین تشویق میکند.
The source of the article is from the blog meltyfan.es