Нові можливості штучного інтелекту: інноваційний підхід до створення зображень

У сфері штучного інтелекту комп’ютери здатні створювати власне “мистецтво” за допомогою моделей дифузії, поступово удосконалюючи шумний початковий пункт для створення чітких зображень або відео. Але цей процес завжди був часомірним, вимагаючи численних ітерацій для досягнення ідеального кінцевого результату. Але ця картина змінилася.

Дослідники з Лабораторії комп’ютерних наук та штучного інтелекту Массачусетського технологічного інституту (CSAIL MIT) розробили новаторську рамку, яка революціонізує роботу моделей дифузії. Шляхом спрощення багатоетапного процесу до одного кроку, їх новий підхід, відомий як дистриб’ютивна дистиляція (DMD), значно скорочує час обчислень, зберігаючи при цьому якість згенерованого візуального контенту.

На відміну від попередніх методів, які покладались на ітеративне вдосконалення, рамка DMD використовує модель учителя-учня, де нова комп’ютерна модель навчається наслідувати поведінку більш складних початкових моделей. Ця техніка забезпечує швидку генерацію зображень, не жертвуючи якістю. Фактично, рамка DMD перевершує попередні моделі дифузії, такі як Тверда Дифузія (Stable Diffusion) і DALLE-3, за швидкістю, генеруючи зображення до 30 разів швидше.

Ключ до успіху DMD полягає в двокомпонентному підході. Спочатку вона використовує втрату регресії для відображення та стабілізації процесу навчання. Потім вона використовує втрату відповідності розподілу, щоб забезпечити, що згенеровані зображення відповідають частоті виникнення в реальному житті. Використовуючи знання двох моделей дифузії, DMD дистилює складність початкових моделей у простішу, швидшу, уникнення спільних проблем, таких як нестабільність та колапс режиму.

Для навчання нової моделі дослідники використовували передпідготовлені мережі та налаштували їх параметри на основі початкових моделей. Це дозволило швидку збіжність і можливість виробляти високоякісні зображення з тією самою архітектурною основою. Рамка DMD також показала постійну продуктивність на різних показниках, конкуруючи з результатами більш складних моделей за якістю генерації зображень.

Хоча DMD є значним проривом, є ще місце для удосконалення. Якість згенерованих зображень залежить від можливостей моделі учителя, використованої під час процесу дистиляції. Наприклад, відтворення детальних текстів та малих облич досі може становити виклик. Однак з вдосконаленням моделей учителів ці обмеження можна подолати, подальше покращуючи згенеровані зображення.

Наслідки одноетапної моделі дифузії широкі. Інструменти дизайну можуть бути покращені, дозволяючи швидше створення вмісту. Галузі, такі як виявлення ліків та 3D-моделювання, можуть скористатися від швидших та ефективніших процесів. Рамка DMD відкриває можливості для реального часу редагування візуалів, поєднуючи універсальність та високу візуальну якість моделей дифузії з результативністю Генеративно-конкурентних мереж (GANs).

З роботою дослідницького колективу, яка була представлена на Конференції з комп’ютерного бачення та розпізнавання образів у червні, очевидно, що майбутнє створення зображень швидко розвивається. Поєднання швидкості, якості та ефективності, наданої рамкою DMD, є значним досягненням в галузі штучного інтелекту.

ЧА-то не ясно? Перейдіть до цих запитань та відповідей:

The source of the article is from the blog maltemoney.com.br

Privacy policy
Contact