پیشرفت‌های حاصل شده در حوزه تصویر با استفاده از یادگیری عمیق

تازه‌ترین سال‌ها، از طریق پیشبردهای حاصل از یادگیری عمیق، تعدادی پیشرفت مهم در حوزه حذف ابهام تصاویر داشته‌ایم. رویکردهای مبتنی بر یادگیری عمیق توانسته‌اند اثربخشی بالایی در حذف ابهام حرکتی و بهبود وضوح تصویر ارائه دهند. با یادگیری الگوهای پیچیده حذف ابهام از مجموعه‌داده‌های بزرگ، سیستم‌های یادگیری عمیق می‌توانند با کیفیت عالی حذف ابهام تصویر را انجام دهند.

یک مطالعه اخیر انجام شده توسط دانشگاه علوم نظامی، دانشگاه شیدیان و دانشگاه پکن، بر روی انواع مختلف ابهام حرکتی، شامل علت آن، مجموعه‌‌داده‌های تصویری ابهام‌دار، ارزیابی‌کننده‌ها برای کیفیت تصویر و روش‌های مختلف توسعه‌یافته برای حذف ابهام حرکتی نابینا تمرکز دارد. این مطالعه روش‌های موجود را به چهار دسته کلاس‌بندی می‌کند: الگوریتم‌‌های مبتنی بر شبکه‌های عصبی پیچشی (CNN)، الگوریتم‌های مبتنی بر شبکه‌های عصبی بازگشتی (RNN)، الگوریتم‌های مبتنی بر شبکه‌های مولد مقابله‌ای (GAN) و الگوریتم‌های مبتنی بر تبدیل‌دهنده (Transformer).

با توجه به توانایی آلگوریتم‌های بر پایه CNN در برداشت اطلاعات فضایی و ویژگی‌های محلی، این الگوریتم‌ها برای پردازش تصویر استفاده گسترده‌ای دارند. شبکه‌های عصبی پیچشی در وظایفی مانند کاهش نویز و حذف ابهام با استفاده از مجموعه‌داده‌های بزرگی که برای آموزش استفاده می‌شود، عالی عمل می‌کنند. با این حال، این الگوریتم‌ها ممکن است در وظایف حذف ابهام که به اطلاعات سراسری یا وابستگی‌های برداشتی بلند نیاز دارند، با مشکل مواجه شوند. پیچیدگی اندازه‌گیری به طور دلخواه به عنوان یک راه حل محبوب برای از بین بردن این محدودیت‌ها ظاهر شده است.

دو نوع شبکه دوپینگی با مراحل اولیه و سیستم‌های سرانجامی که دو دسته اصلی روش‌های حذف ابهام نابینا بر پایه CNN هستند. الگوریتم‌های اولیه بر تخمین تصویر هسته ابهام تمرکز داشته و بر اساس آن، روش‌های اکراهی یا فیلترینگ معکوس را انجام می‌دهند. با این حال، این رویکرد اغلب در حذف ابهام نمونه‌های اصلی و پیچیده در صحنه‌های واقعی ناکام می‌ماند. از طرف دیگر، رویکردهای سرانجامی تصویر ابهام آمیخته را با استفاده از شبکه‌های عصبی، به تصویری واضح تبدیل می‌کنند و کیفیت بازسازی تصویر را به طرز قابل توجهی بهبود می‌بخشند.

الگوریتم‌های بر پایه RNN از RNN‌های متغیر دیدی رویکردی جهت شبیه‌سازی فرآیند حذف ابهام دارند. در حالی که در برداشت وابستگی‌های زمانی یا توالی در حذف ابهام تصاویر توالی خوب عمل می‌کنند، ممکن است در اطلاعات فضایی مشکل پیدا کنند. بنابراین، RNNها معمولاً با ساختارهای دیگر ترکیب می‌شوند تا در وظایف حذف ابهام تصاویر نتایج بهینه را به‌دست آورند.

به تازگی نشان داده شده که الگوریتم‌‌های بر پایه GAN نیز در حذف ابهام تصویر موفقیت قابل توجهی داشته‌اند. GANها از طریق آموزش دچاری، تصاویر واضح و واقعی تری را از تصاویر ابهام‌زده به وجود می‌آورند. با این حال، آموزش GANها ممکن است چالش‌برانگیز باشد و نیاز به تعادل دقیقی بین شبکه‌های تولیدکننده و تمییزدهنده داشته باشد تا مشکلاتی مانند ایجاد الگوهای نامتعارف یا عدم همگرایی را جلوگیری کند.

الگوریتم‌های بر پایه Transformer مزایای پردازشی را برای وظایفی از قبیل پدیده همبستگی به فاصله بلند و جمع‌آوری اطلاعات سراسری ارائه می‌دهند. با این حال، هزینه محاسباتی برای حذف ابهام تصاویر به دلیل وجود تعداد زیاد پیکسل‌ها بالاست.

همانطور که این تحقیق نشان می‌دهد، مجموعه‌داده‌های با کیفیت بالا برای آموزش مدل‌های یادگیری عمیق در حذف ابهام تصویر بسیار حیاتی هستند. با توسعه و بهبود‌های بیشتر، مدل‌های یادگیری عمیق، پتانسیل زیادی را برای استفاده در حوزه‌هایی مانند رانندگی خودکار، پردازش ویدئو و نظارت دارند.

The source of the article is from the blog klikeri.rs