Папагал: Новаторски подход за генериране на текст към изображение с многорезултатен RL фреймуърк

Изследователи от Google DeepMind, OpenAI, Rutgers University и Korea University са разработили новаторски подход, наречен „Папагал“, за генериране на текст към изображение (T2I). Този многорезултатен фреймуърк за усилвателно обучение (RL) има за цел ефективно оптимизиране на множество награди и подобряване на качеството на генерираните изображения.

Фреймуъркът „Папагал“ се фокусира върху съвместна оптимизация на модела T2I и мрежата за разширяване на подсказките, която играе решаваща роля в генерирането на текстови подсказки, свързани с качеството. За да се предотврати възможно забравяне на оригиналната подсказка по време на инференцията, „Папагал“ въвежда подсказка-центрирано ръководство, за да се запази целостта на подсказката.

За да включи информация за предпочитанията, „Папагал“ използва специфични за наградата идентификатори, които автоматично определят важността на всяка цел на наградата. Чрез финото настройване на мрежата за разширяване на подсказките с използване на dataset-a Promptist, „Папагал“ гарантира, че при обучението се вземат предвид алайментът и атрактивните оценки. Моделът T2I е предварително обучен с dataset-a LAION-5B и е финотюнингован с помощта на алгоритъм за градиентно засилване на политиката, за да се разглежда процесът на очистване на шума като процес на Марково решение.

Едно от ключовите предимства на „Папагал“ е неговата способност да подобрява няколко метрики за качество, включително атрактивност, настроение на изображението и предпочитания на хората, в сравнение с използването на една модел за награда. Подсказка-центрираното ръководство гарантира, че генерираните изображения задържат оригиналната подсказка, докато включват визуално приятни детайли.

Въпреки че „Папагал“ демонстрира изключителна ефективност, той все още се основава на съществуващи метрики и има ограничения. Необходими са допълнителни разработки, за да се подобри адаптируемостта на „Папагал“ към по-широк набор от награди и за да се разшири приложимостта му при определянето на качество на изображенията.

Важно е да се отбележи, че етичните последици от използването на „Папагал“ трябва да бъдат внимателно обмислени. Неговата способност да генерира неподходящо съдържание подчертава необходимостта от строг контрол и етична оценка по време на внедряването му.

В заключение, многорезултатният RL фреймуърк на „Папагал“ представлява значителна крачка напред в технологията за генериране на текст към изображение. Със своя подход за съвместна оптимизация и подсказка-центрирано ръководство, „Папагал“ показва потенциал за подобряване на качеството на изображенията и отваря врати за допълнителни разработки в областта.

The source of the article is from the blog cheap-sound.com