기술 거물들, AI 훈련을 위해 YouTube 콘텐츠를 무단 사용 혐의에 휘말려

애플을 비롯한 여러 기술 거물들이, 콘텐츠 제작자들의 동의 없이 YouTube 클립을 사용하여 AI 모델을 훈련시키고 있다는 비난에 직면하고 있습니다. 이 회사들은 허락 대신, 이들이 3자 애플리케이션을 통해 17만 개가 넘는 비디오에서 자막을 추출했습니다.

마르퀴스 브라운리(Marquees Brownlee, MKBHD)와 같은 영향력 있는 테크 블로거들, MrBeast, PewDiePie, 스티븐 콜베트, 존 올리버, 짐미 키멜과 같은 크리에이터들은 이 무단으로 콘텐츠가 사용되어 영향을 받았습니다. 추출된 자막은 동영상 콘텐츠의 필사적인 반복으로, YouTube의 정책을 명백히 위반하였습니다.

조사와 소견 발표

Proof News가 실시한 조사에서 일부 세계적으로 가장 부유한 기업들이 수천 개의 YouTube 비디오로부터 자료를 활용하여 AI 모델을 훈련시킨 사실이 밝혀졌으며, 이는 플랫폼 규정을 무시한 것입니다. 조사 결과,안쏘픽, 엔비디아, 애플, Salesforce 등 테크 거물들이 48,000개가 넘는 채널에서 유래한 173,536개 YouTube 비디오의 자막을 활용했습니다.

다운로드는 EleutherAI라는 비영리 기관에 의해 이루어졌으며, 이는 개발자들이 언어 모델을 훈련하는 데 돕는 단체입니다. 그러나 이러한 자료는 작은 개발자들과 학계를 위한 훈련 자료를 제공할 목적으로 설립되었음에도 불구하고, 주요 테크 기업인 애플을 비롯한 대규모 테크 기업에도 채택되었습니다.

Pile 데이터셋 활용

EleutherAI가 발표한 연구 논문에 따르면, 문제가 되는 데이터셋은 Pile이라고 하는 편집물의 일부입니다. 이러한 데이터셋은 인터넷을 통해 필요한 자원과 컴퓨팅 파워만 있으면 누구든지 사용할 수 있습니다. 큰 기술 기업들 뿐만 아니라, 다양한 소스의 콘텐츠를 활용하여 AI 모델을 훈련시킴으로써 앞으로의 발전을 위한 AI 시스템의 정확도와 다양성을 향상시킬 수 있습니다.

튜브 콘텐츠의 무단 사용이 AI 훈련에 미치는 추가적인 영향에 대한 문제들

최초 조사는 AI 모델 훈련을 위해 YouTube 콘텐츠의 광범위한 무단 추출을 강조하였으나, 이러한 실천으로 인해 추가적인 문제들이 발생합니다. 크리에이터들의 명시적인 동의 없이 테크 기업들이 YouTube 비디오의 자막을 활용함으로써 중요한 몇 가지 핵심적인 문제들이 제기되었습니다.

주요 질문:

1. 법적 결과: AI 훈련에 YouTube 콘텐츠의 무단 사용에 대해 연루된 기술 기업들이 직면할 수 있는 법적 결과는 무엇입니까?

2. 윤리적 고려사항: 콘텐츠의 무단 사용이 이러한 기술 거물들의 윤리적 기준에 어떤 영향을 미치는가?

답변: 제3자 콘텐츠를 활용해 AI 개발에 투명성과 허용에 대한 결여는 윤리적인 실천, 개인 정보 권리 및 창조자에 대한 공정한 보상에 대한 우려를 제기합니다.

3. 데이터 개인정보 우려: YouTube 비디오에서 자막 추출의 영향은 사용자 데이터 개인정보 및 보안에 어떤 위험성을 빚고 있나요?

답변: AI 훈련을 위해 비디오 콘텐츠를 무단 추출하는 것은 사용자의 개인 정보를 침해할 수 있으며, 자막에 포함된 개인 정보가 오용되거나 부적절하게 처리될 수 있습니다.