Нов подход за обучение на големи езикови модели показва ефективност в ефективното изследователско проучване

Изкуственият интелект прави значителни прогреси през последните години, благодарение на развитието на големи езикови модели (ГЕМ) и техники като обучение чрез подсилване от човешки обратна връзка (ОЧОЧВ). Въпреки това, оптимизирането на процеса на обучение на ГЕМ чрез човешка обратна връзка остава предизвикателство.

Традиционно обучението на ГЕМ включваше пасивно изследване, при което моделите генерираха отговори въз основа на предварително зададени подсказки, без да се стремят активно да подобрят на базата на обратна връзка. Този подход изискваше много взаимодействия и се оказа неефективен за бързо подобрение на модела. Бяха използвани различни методи за изследване, като „Boltzmann Exploration“ и „Infomax“, но често бяха необходими голям брой човешки взаимодействия, за да се постигнат забележими резултати.

Изследователи от Google Deepmind и Стенфордски университет сега предлагат новаторски подход за активно изследване, включващ двойно Thompson дискретизиране (TS) и епистемични невронни мрежи (ЕНН) за генериране на запитвания. Този метод за активно изследване позволява на модела активно да търси информативна обратна връзка, което значително намалява броя на необходимите запитвания, за да се постигнат високи нива на производителност.

В своите експерименти агентите генерираха отговори на 32 подсказки, които бяха оценени от симулатор за предпочитания. Обратната връзка от тези оценки се използваше за проследяване на моделите на възнаграждения в края на всяка епоха. Чрез избора на най-информативните двойки от пула с кандидати, използвайки ЕНН, моделът по-ефективно проучваше пространството за отговори.

Резултатите показаха, че двойното Thompson дискретизиране (TS) надминава другите методи за изследване, като Boltzmann изследване и infomax, особено когато се използват несигурностите, които се извличат от модела за възнаграждение ЕНН. Този подход ускори процеса на обучение и демонстрира потенциала за ефективно изследване, за да се намали обемът на необходимата човешка обратна връзка.

Това изследване отваря нови възможности за бързо и ефективно подобрение на модела, като се използват напреднали алгоритми за изследване и оценяване на несигурността. То подчертава важността на оптимизирането на процеса на обучение за по-напредналия напредък на изкуствен интелект. С тези постижения можем да се надяваме на по-ефективни методи за обучение на големи езикови модели и вълнуващи приложения на изкуствен интелект в различни области.

ЧЗВ раздел:

В: Какво е основното предизвикателство при оптимизирането на процеса на обучение на големи езикови модели (ГЕМ) чрез човешка обратна връзка?
О: Основното предизвикателство е да се намери начин за ефективно подобрение на ГЕМ въз основа на обратна връзка, тъй като традиционните методи са били неефективни и са изисквали голям брой човешки взаимодействия.

В: Какво е активно изследване в контекста на ГЕМ?
О: Активното изследване е подход, при който ГЕМ активно търси информативна обратна връзка, за да подобри своята производителност, вместо да се полага на пасивно изследване, при което генерира отговори въз основа на предварително зададени подсказки.

В: Какво представляват двойното Thompson дискретизиране (TS) и епистемичните невронни мрежи (ЕНН)?
О: Двойното Thompson дискретизиране (TS) и епистемичните невронни мрежи (ЕНН) са техники, използвани в предложения метод за активно изследване. Двойното Thompson дискретизиране е метод за балансиране на изследването и експлоатирането, докато епистемичните невронни мрежи се използват за генериране на запитвания, за да се изследва пространството за отговори по-ефективно.

В: Как изследователите оцениха производителността на ГЕМ?
О: Агентите генерираха отговори на 32 подсказки, които след това бяха оценени от симулатор за предпочитания. Обратната връзка от тези оценки се използваше за проследяване на моделите на възнагражденията в края на всяка епоха.

В: Какви бяха резултатите от експериментите?
О: Експериментите показаха, че двойното Thompson дискретизиране (TS) представлява по-добро представяне в сравнение с други методи за изследване като Boltzmann изследване и infomax. Използването на оценки за несигурност от модела за възнаграждение ЕНН ускори процеса на обучение и намали необходимото количество човешка обратна връзка.

Дефиниции:

– Големи езикови модели (ГЕМ): Напреднали модели, използвани за обработка и генериране на текст на човешки език.
– Обучение чрез подсилване от човешка обратна връзка (ОЧОЧВ): Техника, която използва човешка обратна връзка, за да подобри производителността на модели чрез обучение чрез подсилване.
– Boltzmann изследване: Метод, който балансира изследването и експлоатирането, като присвоява вероятности на действията.
– Infomax: Метод, който максимизира информационното съдържание в средата на агента.

Предложени свързани връзки:

– DeepMind: DeepMind е организация за изследване на изкуствения интелект, която е допринесла значително за областта.
– Стенфордски университет: Стенфордският университет е известно академично заведение, известно със своите изследвания и иновации в различни области.

The source of the article is from the blog mendozaextremo.com.ar