Попугай: новый подход к созданию текста изображения с многозадачной системой обучения с подкреплением

Исследователи из Google DeepMind, OpenAI, Рутгерского университета и Корейского университета разработали новый подход, который они назвали Попугай, для создания текста изображения (T2I). Эта новая многозадачная система обучения с подкреплением (RL) нацелена на эффективную оптимизацию нескольких наград и повышение качества создаваемых изображений.

Фреймворк Попугая фокусируется на совместной оптимизации модели T2I и сети расширения подсказки, которая играет ключевую роль в генерации текстовых подсказок, учитывающих качество. Учитывая возможность забывания изначальной подсказки в процессе вывода, Попугай вводит центрированное на подсказке руководство для сохранения целостности подсказки.

Для включения информации о предпочтениях, Попугай использует специфические для награды идентификаторы, которые автоматически определяют важность каждой наградной цели. Путем донастройки сети расширения подсказки с использованием набора данных Promptist, Попугай обеспечивает учет оценок согласованности и эстетической оценки во время обучения с подкреплением. Модель T2I предварительно обучается с использованием набора данных LAION-5B и донастраивается с использованием алгоритма политики градиента для обработки процесса удаления шума как марковского процесса принятия решений.

Одним из главных преимуществ Попугая является его способность улучшать несколько метрик качества, включая эстетику, эмоциональную окраску изображений и предпочтения людей, по сравнению с использованием только одной модели награды. Центрированное на подсказке руководство гарантирует, что сгенерированные изображения соответствуют исходной подсказке и одновременно включают в себя элементы, приятные визуально.

Однако, несмотря на значительную эффективность Попугая, он все еще полагается на существующие метрики и имеет некоторые ограничения. Необходимы дальнейшие улучшения, чтобы увеличить адаптивность Попугая к более широкому спектру наград и расширить его возможности в квантификации качества изображений.

Важно отметить, что этические аспекты использования Попугая должны быть тщательно рассмотрены. Его потенциал для генерации неприемлемого контента требует строгого внимания и этической оценки во время его применения.

В заключение, многозадачная система обучения с подкреплением Попугая представляет собой значительный прогресс в области технологии генерации текста изображения. Благодаря своему подходу совместной оптимизации и руководству, сосредоточенному на подсказке, Попугай показывает потенциал для улучшения качества изображений и открывает двери для дальнейших разработок в этой области.

The source of the article is from the blog maestropasta.cz