تازهترین سالها، از طریق پیشبردهای حاصل از یادگیری عمیق، تعدادی پیشرفت مهم در حوزه حذف ابهام تصاویر داشتهایم. رویکردهای مبتنی بر یادگیری عمیق توانستهاند اثربخشی بالایی در حذف ابهام حرکتی و بهبود وضوح تصویر ارائه دهند. با یادگیری الگوهای پیچیده حذف ابهام از مجموعهدادههای بزرگ، سیستمهای یادگیری عمیق میتوانند با کیفیت عالی حذف ابهام تصویر را انجام دهند.
یک مطالعه اخیر انجام شده توسط دانشگاه علوم نظامی، دانشگاه شیدیان و دانشگاه پکن، بر روی انواع مختلف ابهام حرکتی، شامل علت آن، مجموعهدادههای تصویری ابهامدار، ارزیابیکنندهها برای کیفیت تصویر و روشهای مختلف توسعهیافته برای حذف ابهام حرکتی نابینا تمرکز دارد. این مطالعه روشهای موجود را به چهار دسته کلاسبندی میکند: الگوریتمهای مبتنی بر شبکههای عصبی پیچشی (CNN)، الگوریتمهای مبتنی بر شبکههای عصبی بازگشتی (RNN)، الگوریتمهای مبتنی بر شبکههای مولد مقابلهای (GAN) و الگوریتمهای مبتنی بر تبدیلدهنده (Transformer).
با توجه به توانایی آلگوریتمهای بر پایه CNN در برداشت اطلاعات فضایی و ویژگیهای محلی، این الگوریتمها برای پردازش تصویر استفاده گستردهای دارند. شبکههای عصبی پیچشی در وظایفی مانند کاهش نویز و حذف ابهام با استفاده از مجموعهدادههای بزرگی که برای آموزش استفاده میشود، عالی عمل میکنند. با این حال، این الگوریتمها ممکن است در وظایف حذف ابهام که به اطلاعات سراسری یا وابستگیهای برداشتی بلند نیاز دارند، با مشکل مواجه شوند. پیچیدگی اندازهگیری به طور دلخواه به عنوان یک راه حل محبوب برای از بین بردن این محدودیتها ظاهر شده است.
دو نوع شبکه دوپینگی با مراحل اولیه و سیستمهای سرانجامی که دو دسته اصلی روشهای حذف ابهام نابینا بر پایه CNN هستند. الگوریتمهای اولیه بر تخمین تصویر هسته ابهام تمرکز داشته و بر اساس آن، روشهای اکراهی یا فیلترینگ معکوس را انجام میدهند. با این حال، این رویکرد اغلب در حذف ابهام نمونههای اصلی و پیچیده در صحنههای واقعی ناکام میماند. از طرف دیگر، رویکردهای سرانجامی تصویر ابهام آمیخته را با استفاده از شبکههای عصبی، به تصویری واضح تبدیل میکنند و کیفیت بازسازی تصویر را به طرز قابل توجهی بهبود میبخشند.
الگوریتمهای بر پایه RNN از RNNهای متغیر دیدی رویکردی جهت شبیهسازی فرآیند حذف ابهام دارند. در حالی که در برداشت وابستگیهای زمانی یا توالی در حذف ابهام تصاویر توالی خوب عمل میکنند، ممکن است در اطلاعات فضایی مشکل پیدا کنند. بنابراین، RNNها معمولاً با ساختارهای دیگر ترکیب میشوند تا در وظایف حذف ابهام تصاویر نتایج بهینه را بهدست آورند.
به تازگی نشان داده شده که الگوریتمهای بر پایه GAN نیز در حذف ابهام تصویر موفقیت قابل توجهی داشتهاند. GANها از طریق آموزش دچاری، تصاویر واضح و واقعی تری را از تصاویر ابهامزده به وجود میآورند. با این حال، آموزش GANها ممکن است چالشبرانگیز باشد و نیاز به تعادل دقیقی بین شبکههای تولیدکننده و تمییزدهنده داشته باشد تا مشکلاتی مانند ایجاد الگوهای نامتعارف یا عدم همگرایی را جلوگیری کند.
الگوریتمهای بر پایه Transformer مزایای پردازشی را برای وظایفی از قبیل پدیده همبستگی به فاصله بلند و جمعآوری اطلاعات سراسری ارائه میدهند. با این حال، هزینه محاسباتی برای حذف ابهام تصاویر به دلیل وجود تعداد زیاد پیکسلها بالاست.
همانطور که این تحقیق نشان میدهد، مجموعهدادههای با کیفیت بالا برای آموزش مدلهای یادگیری عمیق در حذف ابهام تصویر بسیار حیاتی هستند. با توسعه و بهبودهای بیشتر، مدلهای یادگیری عمیق، پتانسیل زیادی را برای استفاده در حوزههایی مانند رانندگی خودکار، پردازش ویدئو و نظارت دارند.
The source of the article is from the blog klikeri.rs