인공 지능 학습의 미래: 선도적인 합성 데이터 기술

챗봇이 제공하는 지적 응답 뒤에는 기사, 책, 온라인 논평에서 얻은 수조 단어로 이루어진 거대한 데이터베이스가 있습니다. 이 데이터는 AI 시스템을 이용하여 사용자 쿼리를 이해하도록 훈련하기 위한 것입니다. 산업에서 널리 퍼진 신념은 가능한 많은 정보를 축적하는 것이 차세대 AI 제품을 개발하는 데 필수적이라는 것입니다.

그러나 이 방법론에는 중요한 도전이 있습니다. 고품질 데이터는 온라인에서만 제한적으로 접근할 수 있습니다. 이 데이터를 확보하기 위해 AI 기업은 종종 발행자들에게 컨텐츠 라이선스를 위해 백만 달러를 지급하거나 웹사이트에서 정보를 가져오는 위험에 처합니다.

주요 AI 기업은 AI 커뮤니티 내에서 합성 또는 본질적으로 ‘가짜’ 데이터를 사용하는 대안적이고 어느정도 논란이 있는 접근법을 탐구하고 있습니다. 기술 기업들은 AI 시스템에서 텍스트와 미디어를 생성하고 있습니다. 이 인공 데이터는 그 후 해당 AI 시스템의 향후 버전을 훈련하는 데 사용됩니다. 이러한 방법론을 통해 AI 기업은 다양한 법적, 윤리적, 개인정보 문제를 면할 수 있습니다.

컴퓨터 과학에서의 합성 데이터는 새로운 정보를 만들어내기 위해 주로 사용되어 왔으며, AI 생성 기술의 발전은 더 큰 범위에서 고품질 합성 데이터의 생산을 촉진하고 있습니다.

복합 AI는 주로 새로운 정보를 만들기 위해 목표로 하는데, 기계 학습과 딥러닝과 같은 과정을 통해 데이터, 텍스트, 이미지, 사운드, 비디오 등을 생산합니다. 그 중요한 사례로는 이전 훈련 데이터를 기반으로 새로운 텍스트를 생성할 수 있는 OpenAI의 GPT 모델이 있습니다.