در حوزه هوش مصنوعی، کامپیوترها توانایی ایجاد “هنر” خود را از طریق مدلهای انتشاری پیدا کردهاند، که از طریق رفتن مراحلی به سرعت نسبت به ایجاد تصاویر یا ویدیوهای واضح و روشن از نقطه شروع نویزی پیشرفته است. با این حال، این فرایند همیشه زمانبر بوده است و نیازمند تعداد زیادی نسخه برای بهبود نتیجه نهایی است. اما این تاکنون به این شکل نیست.
پژوهشگران در آزمایشگاه علوم کامپیوتر و هوش مصنوعی دانشگاه MIT یک چارچوب نوآورانه ارائه کردهاند که نحوه کار مدلهای انتشار را موجود به طور انقلابی تغییر می دهد. این روش جدید، به نام تطابق توزیع تقطیر (DMD)، با سادهسازی فرآیند چندمرحلهای به یک مرحله، زمان محاسباتی را به شکل چشمگیری کاهش داده و همچنین کیفیت محتوای تصویری تولیدی را حفظ میکند.
برخلاف روشهای پیشین، که بر روی بهبود مداوم تکیه داشتند، چارچوب DMD از مدل استاد-شاگرد استفاده میکند که یک مدل کامپیوتری جدید یاد میگیرد که رفتار مدلهای اصلی پیچیدهتر را تقلید کند. این تکنیک باعث تولید سریع تصاویر بدون کاستی از نظر کیفیت میشود. در واقع چارچوب DMD، مدلهای انتشاری پیشین مانند انتشار پایدار و DALLE-3 را در زمینه سرعت پیشی میگیرد و تصاویر تا 30 برابر سریعتر تولید میکند.
کلید موفقیت DMD در دو مولفهاش نهفته است. ابتدا، از یک انتشار رگرسیون جهت نقشهبرداری و استحکامبخشی به فرآیند آموزش استفاده میشود. سپس از یک انتشار همخوانی توزیع برای اطمینان از اینکه تصاویر تولیدی با فراوانیهای رخداد واقعی مطابقت دارند، استفاده میکند. با بهرهگیری از دانش دو مدل انتشار، DMD پیچیدگی مدلهای اصلی را به یک مدل سادهتر و سریعتر تقطیر میکند و از موارد مشترکی مانند ناپایداری و فروپاشی حالت اجتناب میکند.
برای آموزش مدل جدید، پژوهشگران از شبکههای پیشآموزان استفاده کردند و پارامترهای آنها را بر اساس مدلهای اصلی به روز کردند. این امکان را فراهم میکند تا همگرایی سریع داشته باشد و توانایی تولید تصاویر با کیفیت بالا با همان پایه معماری را داشته باشد. چارچوب DMD نیز عملکردی پایدار بر روی اندازهگیریهای مختلف نشان میدهد که با نتایج مدلهای پیچیدهتر در زمینه کیفیت تولید تصویر رقابت میکند.
اگر چه DMD یک پیشرفت مهم است، اما همچنان امکان بهبود وجود دارد. کیفیت تصاویر تولیدی به توانایی مدل استادی که در فرایند تقطیر استفاده شده است، وابسته است. به عنوان مثال، نمایش متن دقیق و چهرههای کوچک همچنان چالشهایی را میتواند ایجاد کند. با این وجود، با پیشرفتها در مدلهای استادی این محدودیتها قابل پیشگیری هستند و تصاویر تولیدی را از لحاظ کیفیت بهبود میدهند.
پیامدهای مدل انتشار یکمرحلهای بسیار گسترده است. ابزارهای طراحی میتوانند بهبود یابند، اجازه ایجاد محتوای سریعتر را میدهند. صنایعی مانند کشف دارو و مدلسازی سهبعدی از فرایندهای سریعتر و موثرتر بهرهمند میشوند. چارچوب DMD امکاناتی را برای ویرایش تصویر به صورت زمانواقعی با ترکیب انعطافپذیری و کیفیت بالای بصری مدلهای انتشاری با عملکرد شبکههای مولد-رقیق (GANs) ایجاد میکند.
با ارائه کار گروه تحقیقات، من بر روی چارچوب DMD در کنفرانس بینایی کامپیوتر و الگویی در تشخیص ژوئن به وضوح است که آینده تولید تصویر به سرعت در حال تحول است. ترکیب سرعت، کیفیت و کارایی ارائه شده توسط چارچوب DMD نقطه عطف قابل توجهی را در زمینه هوش مصنوعی نشان میدهد.
پرسشهای متداول
The source of the article is from the blog meltyfan.es