Нова перспектива в областта на изобразителното създаване с единични стъпкови разпръскващи модели

В сферата на изкуствения интелект компютрите са в състояние да създават свое собствено „изкуство“ чрез разпръскващи модели, които постепенно усъвършенстват шумен начален пункт, за да генерират ясни изображения или видеа. Все пак този процес винаги е бил времеемки и изисквал множество итерации, за да се съвършенства окончателният резултат. Дотогава.

Изследователите в Компютърният научен институт на MIT (CSAIL) са разработили революционна рамка, която променя начина, по който работят разпръскващите модели. Чрез опростяване на многостъпковия процес в една стъпка, техният нов подход, известен като дистилация за съвпадение на разпределението (DMD), значително намалява изчислителното време, като запазва качеството на генерираното визуално съдържание.

За разлика от предишните методи, които се базираха на итеративно усъвършенстване, рамката DMD използва учител-ученик модел, където новият компютърен модел се учи да имитира поведението на по-сложните оригинални модели. Тази техника гарантира бързо генериране на изображения без да се компрометира с качеството. Фактически, рамката DMD надхвърля предишните разпръскващи модели като Stable Diffusion и DALLE-3 по отношение на скоростта, като генерира изображения до 30 пъти по-бързо.

Ключът към успеха на DMD лежи в неговия двукомпонентен подход. Първо, той използва загуба при регресията, за да картографира и стабилизира учебния процес. След това се използва загуба при съпоставяне на разпределения, за да се осигури, че генерираните изображения съответстват на честотите на срещане в реалния свят. Чрез използването на знанието на два разпръскващи модела, DMD дестилира сложността на оригиналните модели в по-прост, по-бърз, избягвайки обичайните проблеми като нестабилност и колапс на модуса.

За обучението на новия модел изследователите използваха предварително обучени мрежи и подобриха параметрите им въз основа на оригиналните модели. Това позволи бързо сближаване и възможността за производство на висококачествени изображения с една и съща архитектурна основа. Рамката DMD също показа съгласувана производителност в различни бенчмаркове, съперничейки с резултатите на по-сложни модели по отношение на качеството на генерираното изображение.

Въпреки че DMD е значителен напредък, все още има място за подобрения. Качеството на генерираните изображения зависи от възможностите на учителския модел, използван по време на дистилационния процес. Например, визуализирането на подробни текстове и малки лица все още може да предизвика затруднения. Въпреки това, с просперитет на учителските модели тези ограничения могат да бъдат преодолени, като се подобряват генерираните изображения.

Последиците от единичния разпръскващ модел са големи. Дизайнерските инструменти могат да се подобрят, като се даде възможност за по-бързо създаване на съдържание. Индустриите като откриването на лекарства и 3D моделирането могат да въздействат от по-бързите и по-ефективни процеси. Рамката DMD отваря възможности за реално време на визуално редактиране, което комбинира разнообразието и високото визуално качество на разпръскващите модели със запазването на резултативността на GANs.

С работата на изследователския екип, представена на Конференцията по Компютърно виждане и Разпознаване на образи през юни, е ясно, че бъдещето на генерирането на изображения се развива бързо. Комбинацията от скорост, качество и ефективност, предоставена от рамката DMD, означава значителна вехта в областта на изкуствения интелект.

Често задавани въпросиThe source of the article is from the blog kewauneecomet.com

Често задавани въпроси
The source of the article is from the blog kewauneecomet.com