AI 기업들의 고갈된 데이터 문제

인공지능 (AI) 기업들이 최근 발표된 보고서에 따르면 고품질의 훈련 데이터를 확보하는 데 어려움을 겪고 있다고 합니다. 이 문제로 인해 이들 기업들은 이 장애물을 극복하기 위해 다양한 방법을 모색하고 있습니다. 심지어 AI 저작권 법의 어두운 영역에 발을 들여놓을 지경까지 노리는 것입니다.

하나의 주목할 만한 기업인 OpenAI는 훈련 데이터에 절실한 상황에 처해 Whisper 오디오 전사 모델을 개발하여 해결책으로 채택했습니다. 이 모델은 백만 시간 이상의 YouTube 동영상을 전사하여 GPT-4를 훈련시키기 위해 사용되었습니다. OpenAI는 이러한 접근 방식의 잠재적인 법적 영향을 인정했지만, 이는 공정한 사용에 해당된다고 믿었습니다. 특히, OpenAI의 대표인 Greg Brockman이 훈련에 사용된 동영상 수집을 개인적으로 감독했습니다.

이러한 주장에 대응하여 OpenAI 대변인인 Lindsay Held는 회사가 각 모델마다 “독특한” 데이터 세트를 선별하여 세계의 이해를 증진시킨다고 설명했습니다. Held는 OpenAI가 공개적으로 이용 가능한 데이터와 비공개 파트너십을 포함한 다양한 데이터 소스를 활용하며, 해당 기업은 합성 데이터 생성 방법도 탐구하고 있습니다. 회사는 2021년 기존의 유용한 데이터 공급을 다 소진하며 YouTube 동영상, 팟캐스트, 오디오북 뿐만 아니라 Github의 컴퓨터 코드, 체스 이동 데이터베이스, Quizlet의 교육 콘텐츠 등의 자원을 전사하는 것도 고려하기 시작했습니다.

AI 분야에서 또 다른 중요한 역할을 하는 구글도 훈련 데이터 획득에 어려움을 겪고 있습니다. 회사 대변인 Matt Bryant은 OpenAI가 YouTube 콘텐츠를 훈련 목적으로 사용했다는 보도에 대해 답변했습니다. Bryant은 YouTube 콘텐츠의 무단 스크래핑이나 다운로드는 엄격히 금지되었음을 강조했습니다. 구글은 YouTube 크리에이터와의 합의에 따라 선택적으로 유튜브 콘텐츠를 활용하여 모델을 훈련시킨다고 인정했습니다. 또한, 회사는 개인 데이터를 Google 문서와 같은 사무용 도구에 활용할 수 있는 방법을 확대하기 위해 개인 정보 보호 정책을 수정했습니다.

Meta로 이름이 변경된 페이스북과 같은 기업도 고품질 훈련 데이터 확보에 관련된 비슷한 어려움을 겪었습니다. 뉴욕 타임스가 입수한 녹취록에 따르면 Meta의 AI 팀 내에서 저작권 침해 논의가 있었습니다. Meta는 OpenAI에 뒤처지지 않기 위해 책 라이선스를 구매하거나 대형 출판사를 인수하는 등의 다양한 전략을 탐험했습니다. Cambridge Analytica 스캔들에 대한 개인 정보 관련 변경사항 덕분에 Meta도 소비자 데이터 활용 능력이 제한되었습니다.

Google, OpenAI 및 기타 AI 기업들을 포함한 AI 기업들은 모델 향상을 위해 데이터 양에 크게 의존하는 데이터의 점차적인 부족에 직면하고 있습니다. 새로운 콘텐츠의 신속한 소비는 2028년까지 신선한 훈련 데이터를 확보하는 능력을 추월할 수 있습니다. 최근 보고서에서 언급된 가능한 해결책으로는 자체 모델에서 생성된 합성 데이터로 모델을 훈련하거나 커리큘럼 학습 기법을 채택하는 등이 있습니다. 그러나 이러한 방법의 효과는 아직 입증되지 않았습니다.

자주 묻는 질문

1. 고품질 훈련 데이터 획득에 어려움을 겪는 이유는 무엇인가요?
AI 기업들은 모델을 향상시키기 위해 고품질의 훈련 데이터에 크게 의존합니다. 그러나 그러한 데이터의 가용성이 점점 줄고 있어 이들 기업들에게 상당한 과제로 작용하고 있습니다.

2. OpenAI는 데이터 부족 문제에 대해 어떻게 대응하고 있나요?
OpenAI는 훈련 데이터의 부족 문제를 해결하기 위해 다양한 방법을 사용하고 있습니다. 그 중 하나는 Whisper라는 오디오 전사 모델을 개발하는 것으로, 이 모델은 수백만 시간의 YouTube 동영상을 전사하여 언어 모델을 훈련시키는 데 사용됐습니다. 그러나 이 방법은 잠재적인 법적 우려를 동반하고 있습니다.

3. 구글은 YouTube 콘텐츠의 무단 사용과 관련된 주장에 어떻게 대응하고 있나요?
구글은 자사의 이용 약관에 따라 YouTube 콘텐츠의 무단 스크래핑이나 다운로드를 엄격히 금지하고 있습니다. 회사는 YouTube 크리에이터와의 합의에 따라 선택된 YouTube 콘텐츠로 모델을 훈련시킨다고 인정하고 있습니다.

4. AI 기업들은 데이터 부족을 극복하기 위해 어떤 대안적인 해결책을 모색하고 있나요?
AI 기업들은 데이터 부족의 과제에 대처하기 위해 다양한 전략을 고려하고 있습니다. 일부 잠재적인 해결책으로는 자체 모델에서 생성된 합성 데이터로 모델을 훈련하거나 모델이 이해를 향상시키기 위해 순서대로 고품질 데이터를 제공하는 커리큘럼 학습 기법을 도입하는 등이 있습니다.

Sources:

By [Your Name], 새로운 기술에 열정을 품고 있는 기술 애호가이자 작가입니다.

The source of the article is from the blog queerfeed.com.br