Новый подход к генерации изображений: поворотная модель с одиночным шагом

В области искусственного интеллекта компьютеры могут создавать своё собственное «искусство» с помощью моделей диффузии, постепенно улучшая шумный стартовый момент для создания четких изображений или видео. Однако этот процесс всегда требовал много времени, необходимого для совершенствования окончательного результата. Это было до сих пор.

Исследователи из Компьютерной науки и лаборатории искусственного интеллекта Массачусетского технологического института (CSAIL) разработали революционную методику, которая изменяет принципы работы моделей диффузии. Упростив многоэтапный процесс до одного шага, их новый подход, известный как «дистилляция сопоставления распределений» (DMD), значительно сокращает вычислительное время, сохраняя при этом качество порожденного визуального контента.

В отличие от предыдущих методов, основанных на итеративном улучшении, структура DMD использует модель учителя-ученика, в которой новая компьютерная модель учится имитировать поведение более сложных оригинальных моделей. Эта техника гарантирует быструю генерацию изображений без ущерба для качества. Фактически, структура DMD превосходит предыдущие модели диффузии, такие как Stable Diffusion и DALLE-3, по скорости, генерируя изображения до 30 раз быстрее.

Ключ к успеху DMD заключается в двухкомпонентном подходе. Во-первых, он использует функцию потерь регрессии для отображения и стабилизации процесса обучения. Затем он применяет функцию потерь сопоставления распределения для того, чтобы гарантировать, что сгенерированные изображения соответствуют частотам в реальном мире. Используя знания двух моделей диффузии, DMD дистиллирует сложность оригинальных моделей в более простую, более быструю, обходя распространенные проблемы, такие как нестабильность и схлопывание режимов.

Чтобы обучить новую модель, исследователи использовали предварительно обученные сети и тонко настроили их параметры на основе оригинальных моделей. Это обеспечило быструю сходимость и возможность создавать изображения высокого качества с тем же архитектурным фундаментом. Структура DMD также продемонстрировала последовательную производительность по различным бенчмаркам, не уступая результатам более сложных моделей в плане качества генерации изображений.

Хотя DMD представляет собой значительный прорыв, еще существует место для улучшений. Качество сгенерированных изображений зависит от возможностей модели-учителя, используемой в процессе дистилляции. Например, отрисовка детального текста и небольших лиц все еще может вызывать сложности. Однако с развитием моделей-учителей эти ограничения могут быть преодолены, что дальше улучшит качество сгенерированных изображений.

Возможности одношаговой модели диффузии огромны. Инструменты дизайна могут быть улучшены, что позволит более быструю создание контента. Промышленности, такие как открытие лекарств и 3D-моделирование, могут воспользоваться более быстрыми и эффективными процессами. Структура DMD открывает возможности для реального времени редактирования визуализации, сочетая в себе гибкость и высокое качество визуализации диффузионных моделей с производительностью генеративных состязательных сетей (GAN).

С работой исследовательской группы, представленной на Конференции по обработке изображений и распознаванию образов в июне, ясно, что будущее генерации изображений стремительно развивается. Сочетание скорости, качества и эффективности, предоставляемое структурой DMD, является значительным достижением в области искусственного интеллекта.

ЧаВО

Что такое модель диффузии?
Модель диффузии — это тип искусственного интеллекта, при котором компьютеры порождают визуальный контент, итеративно улучшая шумный стартовый момент, пока не появятся четкие изображения или видео.

Что такое структура DMD?
Структура DMD (дистилляция сопоставления распределений) — это новый метод, разработанный исследователями в MIT. Она упрощает традиционный многоэтапный процесс моделей диффузии до одного шага, значительно сокращая вычислительное время, сохраняя при этом качество порожденного визуального контента.

Как работает структура DMD?
Структура DMD использует модель учителя-ученика, где новая компьютерная модель учится имитировать поведение более сложных оригинальных моделей. Она объединяет функцию потерь регрессии и функцию потерь сопоставления распределений для обеспечения стабильного обучения и порождения изображений, соответствующих частотам в реальном мире.

Каковы преимущества структуры DMD?
Структура DMD ускоряет генерацию изображений по сравнению с предыдущими моделями диффузии до 30 раз. Она сохраняет качество порожденного визуального контента, значительно сокращая вычислительное время. Кроме того, у нее есть потенциал улучшить инструменты дизайна, поддержать прогрессы в открытии лекарств и 3D-моделировании и обеспечить реальное времени визуальное редактирование.

Существуют ли ограничения для структуры DMD?
Качество сгенерированных изображений с использованием структуры DMD зависит от возможностей модели-учителя, использованной в процессе дистилляции. Отрисовка детального текста и небольших лиц все еще может вызывать сложности, но эти ограничения могут быть преодолены более продвинутыми моделями-учителями.

Источники:
— MIT CSAIL: csail.mit.edu

The source of the article is from the blog maestropasta.cz