Новые методы обучения с подкреплением посредством обратной связи от человека

Исследователи из лаборатории Fudan NLP, лаборатории Fudan Vision and Learning и Hikvision Inc. разработали инновационные техники, которые улучшают обучение с подкреплением с использованием обратной связи от человека (RLHF). Внедрение новых методов для устранения неправильных и неоднозначных предпочтений в наборах данных позволяет более точно понять человеческие намерения.

Одним из ключевых аспектов RLHF является модель вознаграждения, которая является основным механизмом интеграции предпочтений человека в процесс обучения. Однако модели вознаграждения, основанные на конкретных распределениях данных, часто затрудняют обобщение за пределы этих распределений, что затрудняет эффективное обучение RLHF. Чтобы преодолеть это ограничение, исследователи предложили измерять силу предпочтений через голосование, в которое включены несколько моделей вознаграждения. Такой подход помогает устранять неправильные и неоднозначные предпочтения, улучшая общую обобщаемость моделей вознаграждения.

Исследование также представило контрастное обучение, которое повышает способность моделей вознаграждения различать выбранные и отклоненные ответы. Путем уточнения умения модели вознаграждения обнаруживать тонкие различия в примерах, не входящих в распределение, исследователи смогли более эффективно итерироваться и оптимизировать процесс RLHF с помощью метаобучения.

Эксперименты, проведенные на наборах данных, таких как SFT, Anthropic-RLHF-HH, Reddit TL;DR, Oasst1 и PKU-SafeRLHF, подтвердили эффективность предложенных методов. Эти наборы данных, которые включают беседы, данные о предпочтениях человека, резюме и подсказки, способствовали надежной обобщаемости вне распределения. Кроме того, исследователи продемонстрировали, что методы шумоподавления способны обеспечить стабильную производительность на всех наборах валидации, особенно при ответе на вредоносные подсказки.

Исследование RLHF в переводе показало многообещающие результаты, что указывает на потенциальные направления для будущих исследований в этой динамичной области. Одной из ключевых областей для дальнейшего изучения является разработка более надежной модели вознаграждения, так как она остается относительно неисследованной в языковых моделях. Исследователи акцентируют внимание на практичности исследования, сосредотачиваясь на получении инсайтов и понимании соответствия, а не на предложении инновационных методов.

В заключение, развитие новых методов в RLHF открывает возможности для согласования языковых моделей с человеческими ценностями. Решение проблем, связанных с моделями вознаграждения и неправильными предпочтениями, способствует более точному и эффективному обучению с подкреплением на основе обратной связи от человека.

The source of the article is from the blog lokale-komercyjne.pl