Новий підхід покращує генерацію зображень у моделях дифузії

Опис: Група дослідників з компанії ByteDance Inc. представила новий метод для покращення якості зображень, що генеруються дифузійними моделями. Ці моделі, які перетворюють шум на структуровані дані, стали невід’ємною частиною комп’ютерного зору та штучного інтелекту. Дослідники інтегрували перцептивну втрату в навчання дифузії, використовуючи саму модель дифузії як перцептивну мережу. Цей підхід створює значущу перцептивну втрату, значно підвищуючи реалізм та якість згенерованих зображень. На відміну від попередніх методів, ця техніка забезпечує баланс між покращенням якості вибірки та збереженням різноманітності вибірки, пропонуючи більш вдосконалений спосіб навчання дифузійних моделей.

Кількісна оцінка показує, що використання суб’єктивної мети самостійної дослідження привело до помітних покращень в ключових метриках, таких як Відстань Фреше Інцепшн та Оцінка Інцепшн. Ці метрики свідчать про значне покращення візуальної якості та реалізму. Хоча цей новий підхід все ще поступається в порівнянні з вільним класифікатором щодо загальної якості вибірки, він вирішує обмеження вільного класифікатора, такі як перезасвоєння та перенасиченість зображень. Включення самостійної мети під час дифузійного навчання відкриває нові можливості для генерації високореалістичних та вищої якості зображень.

Дослідження, проведене компанією ByteDance Inc., показує, що дифузійні моделі зазнають істотних змін у генерації зображень. Інтеграція самостійної мети надає перспективний напрямок для подальшого розвитку генеративних моделей. Цей підхід може бути корисним для різних застосувань, від генерації мистецтва до складніших завдань комп’ютерного зору. Очікується подальше дослідження та потенційні покращення в навчанні моделей дифузії, які вплинуть на майбутні дослідження у цій галузі.