새로운 방법론으로 인간 피드백에 대한 강화 학습

푸단 NLP 연구소, 푸단 비전 및 학습 연구소, 그리고 Hikvision Inc.의 연구진들은 인간 피드백 (RLHF)으로부터의 강화 학습을 향상시키기 위한 혁신적인 기법을 개발했습니다. 이들 연구진은 데이터셋에서 잘못된 및 모호한 선호도를 해결하기 위한 새로운 방법을 도입함으로써 인간의 의도를 보다 정확하게 파악할 수 있는 길을 열었습니다.

RLHF의 중요한 측면 중 하나는 보상 모델인데, 이는 학습 과정에 인간의 선호도를 효과적으로 통합하는 주요 메커니즘으로 작용합니다. 그러나 특정 데이터 분포에 기반한 보상 모델은 종종 그 분포를 벗어나는 일반화에 어려움을 겪어 RLHF 훈련에 제약을 가하는 경우가 있습니다. 이러한 제한을 극복하기 위해 연구진들은 다양한 보상 모델을 활용한 투표 메커니즘을 통해 선호도의 강도를 측정하는 방안을 제안했습니다. 이 접근 방식은 잘못된 및 모호한 선호도를 완화하여 보상 모델의 전반적인 일반화를 향상시킵니다.

본 연구는 또한 대비 학습이라는 개념을 소개하였습니다. 이는 보상 모델이 선택된 응답과 거부된 응답을 구별하는 능력을 향상시킵니다. 연구진들은 분포 밖의 샘플들 사이의 미묘한 차이를 보상 모델이 더욱 정교하게 인식함으로써 메타 학습을 통해 RLHF 과정을 효과적으로 개선할 수 있게 되었습니다.

SFT, AnthropRLHF-HH, Reddit TL;DR, Oasst1, PKU-SafeRLHF 등의 데이터셋에서 수행된 실험은 제안된 방법의 효능을 입증했습니다. 대화, 인간의 선호도 데이터, 요약 및 프롬프트를 포함한 이러한 데이터셋은 분포 밖의 일반화를 강화하는 데 기여했습니다. 더불어 연구진들은 노이즈 제거 방법이 해로운 프롬프트에 대응하는 경우를 포함하여 모든 유효성 검증 세트에서 안정적인 성능을 제공하는 것을 입증했습니다.

번역에서 RLHF의 탐색은 유망한 결과를 보여주었으며, 이는 이 동적인 분야에서의 미래 연구 가능성을 시사합니다. 보상 모델을 보다 견고하게 발전시키는 것은 특히 언어 모델에서는 비교적 덜 연구된 영역이므로, 추가적인 조사가 필요한 주요 분야입니다. 연구진들은 혁신적인 방법 제안보다는 통찰력을 얻고 조정을 이해하는 데 초점을 맞추며 연구의 실용성을 강조합니다.

결론적으로, RLHF에서의 새로운 방법론은 언어 모델을 인간의 가치와 조율할 수 있는 기회를 제공합니다. 보상 모델과 잘못된 선호도에 관련된 도전들을 다루는 것을 통해 이러한 발전은 인간의 피드백으로부터의 강화 학습을 더욱 정확하고 효과적으로 만듭니다.

The source of the article is from the blog zaman.co.at

Privacy policy
Contact