Новый подход к обучению больших языковых моделей демонстрирует перспективу в эффективном исследовании

Искусственный интеллект в последние годы сделал значительные успехи, благодаря развитию больших языковых моделей (LLM) и техник, таких как обучение с подкреплением на основе обратной связи от человека (RLHF). Однако оптимизация процесса обучения LLM с помощью обратной связи от человека остается сложной задачей.

Традиционно, обучение LLM включало пассивное исследование, при котором модели генерировали ответы на основе предопределенных подсказок, не стремясь активно улучшать результаты на основе обратной связи. Этот подход требовал множества взаимодействий и оказался неэффективным для быстрого совершенствования модели. Были использованы различные методы исследования, такие как болтцмановское исследование и инфомакс, но зачастую было необходимо проводить много взаимодействий с людьми, чтобы получить заметные результаты.

Исследователи из Google Deepmind и Stanford University предложили новый подход к активному исследованию, включающий двойную выборку Томпсона (TS) и эпистемические нейронные сети (ENN) для генерации запросов. Этот метод активного исследования позволяет модели активно искать информативную обратную связь, значительно сокращая количество запросов, необходимых для достижения высокого уровня производительности.

В ходе экспериментов агенты генерировали ответы на 32 подсказки, которые оценивал симулятор предпочтений. Обратная связь от этих оценок использовалась для уточнения моделей награды в конце каждой эпохи. Путем выбора наиболее информативных пар из пула кандидатов с использованием ENN модель быстрее и эффективнее исследовала пространство ответов.

Результаты показали, что двойная выборка Томпсона (TS) превосходит другие методы исследования, как болтцмановское исследование и инфомакс, особенно при использовании неопределенности, оцененной моделью награды ENN. Этот подход ускорил процесс обучения и продемонстрировал потенциал эффективного исследования для сокращения объема обратной связи от человека, которая необходима.

Это исследование открывает новые возможности для быстрого и эффективного улучшения модели путем использования передовых алгоритмов исследования и оценок неопределенности. Оно подчеркивает важность оптимизации процесса обучения для общего развития искусственного интеллекта. Благодаря этим достижениям мы можем ожидать более эффективных методов обучения для больших языковых моделей и захватывающих приложений искусственного интеллекта в различных областях.

Часто задаваемые вопросы:

The source of the article is from the blog radiohotmusic.it

Privacy policy
Contact