برآورد یک فضائی جدید برای ایجاد تصاویر با مدل‌های انتشار یک مرحله‌ای

در حوزه هوش مصنوعی، کامپیوترها توانایی ایجاد “هنر” خود را از طریق مدل‌های انتشاری پیدا کرده‌اند، که از طریق رفتن مراحلی به سرعت نسبت به ایجاد تصاویر یا ویدیوهای واضح و روشن از نقطه شروع نویزی پیشرفته است. با این حال، این فرایند همیشه زمان‌بر بوده است و نیازمند تعداد زیادی نسخه برای بهبود نتیجه نهایی است. اما این تاکنون به این شکل نیست.

پژوهشگران در آزمایشگاه علوم کامپیوتر و هوش مصنوعی دانشگاه MIT یک چارچوب نوآورانه ارائه کرده‌اند که نحوه کار مدل‌های انتشار را موجود به طور انقلابی تغییر می دهد. این روش جدید، به نام تطابق توزیع تقطیر (DMD)، با ساده‌سازی فرآیند چند‌مرحله‌ای به یک مرحله، زمان محاسباتی را به شکل چشمگیری کاهش داده و همچنین کیفیت محتوای تصویری تولیدی را حفظ می‌کند.

برخلاف روش‌های پیشین، که بر روی بهبود مداوم تکیه داشتند، چارچوب DMD از مدل استاد-شاگرد استفاده می‌کند که یک مدل کامپیوتری جدید یاد می‌گیرد که رفتار مدل‌های اصلی پیچیده‌تر را تقلید کند. این تکنیک باعث تولید سریع تصاویر بدون کاستی از نظر کیفیت می‌شود. در واقع چارچوب DMD، مدل‌های انتشاری پیشین مانند انتشار پایدار و DALLE-3 را در زمینه سرعت پیشی می‌گیرد و تصاویر تا 30 برابر سریعتر تولید می‌کند.

کلید موفقیت DMD در دو مولفه‌اش نهفته است. ابتدا، از یک انتشار رگرسیون جهت نقشه‌برداری و استحکام‌بخشی به فرآیند آموزش استفاده می‌شود. سپس از یک انتشار همخوانی توزیع برای اطمینان از اینکه تصاویر تولیدی با فراوانی‌های رخداد واقعی مطابقت دارند، استفاده می‌کند. با بهره‌گیری از دانش دو مدل انتشار، DMD پیچیدگی مدل‌های اصلی را به یک مدل ساده‌تر و سریعتر تقطیر می‌کند و از موارد مشترکی مانند ناپایداری و فروپاشی حالت اجتناب می‌کند.

برای آموزش مدل جدید، پژوهشگران از شبکه‌های پیش‌آموزان استفاده کردند و پارامترهای آنها را بر اساس مدل‌های اصلی به روز کردند. این امکان را فراهم می‌کند تا همگرایی سریع داشته باشد و توانایی تولید تصاویر با کیفیت بالا با همان پایه معماری را داشته باشد. چارچوب DMD نیز عملکردی پایدار بر روی اندازه‌گیری‌های مختلف نشان می‌دهد که با نتایج مدل‌های پیچیده‌تر در زمینه کیفیت تولید تصویر رقابت می‌کند.

اگر چه DMD یک پیشرفت مهم است، اما همچنان امکان بهبود وجود دارد. کیفیت تصاویر تولیدی به توانایی مدل استادی که در فرایند تقطیر استفاده شده است، وابسته است. به عنوان مثال، نمایش متن دقیق و چهره‌های کوچک همچنان چالش‌هایی را می‌تواند ایجاد کند. با این وجود، با پیشرفت‌ها در مدل‌های استادی این محدودیت‌ها قابل پیش‌گیری هستند و تصاویر تولیدی را از لحاظ کیفیت بهبود می‌دهند.

پیامدهای مدل انتشار یک‌مرحله‌ای بسیار گسترده است. ابزارهای طراحی می‌توانند بهبود یابند، اجازه ایجاد محتوای سریع‌تر را می‌دهند. صنایعی مانند کشف دارو و مدل‌سازی سه‌بعدی از فرایندهای سریعتر و موثرتر بهره‌مند می‌شوند. چارچوب DMD امکاناتی را برای ویرایش تصویر به صورت زمان‌واقعی با ترکیب انعطاف‌پذیری و کیفیت بالای بصری مدل‌های انتشاری با عملکرد شبکه‌های مولد-رقیق (GANs) ایجاد می‌کند.

با ارائه کار گروه تحقیقات، من بر روی چارچوب DMD در کنفرانس بینایی کامپیوتر و الگویی در تشخیص ژوئن به وضوح است که آینده تولید تصویر به سرعت در حال تحول است. ترکیب سرعت، کیفیت و کارایی ارائه شده توسط چارچوب DMD نقطه عطف قابل توجهی را در زمینه هوش مصنوعی نشان می‌دهد.

پرسش‌های متداول

The source of the article is from the blog meltyfan.es

Privacy policy
Contact