인공지능 훈련에서 윤리적 딜레마

인공지능 모델을 훈련하기 위한 디지털 데이터의 가용성이 무한하지 않다는 사실은 일반적으로 알려진 것과는 다르다. 이러한 사실은 오픈AI, 구글, 메타 등 주요 기업들이 윤리적 경계를 뛰어넘는 어려운 결정을 내려야 하며 기존의 법률을 도전할 수밖에 없게 만들었다. 이러한 사실은 최근 뉴욕타임스에서 발표된 조사 기사에서 밝혀졌다.

기사에서 강조된 갈등적인 실천 방법 중 하나는 오픈AI가 유튜브 동영상 백만 시간 이상의 오디오를 전사하는 것이다. 이 대화형 텍스트를 모델 훈련 목적으로 스크래핑 함으로써 유튜브 규칙을 위반할 가능성에 대한 의문을 제기했다. 전사 데이터는 강력한 AI 모델 GPT-4에 공급되어 최신 버전의 ChatGPT 챗봇의 기초를 이루고 있다.

페이스북과 인스타그램의 모회사인 Meta도 자신들의 행동에 대한 검증을 받았다. 기사는 메타가 장편 작품을 확보하기 위해 출판사를 인수하려고 고민하고 인터넷 전체에서 저작권 데이터를 수집하는 것에 대해 논의했다고 밝혔다. 데이터를 얻기 위해, 이들은 출판사, 예술가, 음악가 및 뉴스 산업과의 장시간 협상 대신 법적 후유증을 짓고 싶어했다.

정보를 수집하는 방법으로 널리 알려진 구글은 자신의 독보적인 다양한 정보 수집 플랫폼으로 독자적인 도전을 겪었다. 이 회사는 유튜브 비디오의 전사를 추출하여 AI 훈련을 위한 텍스트로 사용하였으며, 이는 비디오 제작자들의 저작권을 침해할 수 있다. 기사는 우리에게 AI 산업이 온라인 정보에 많이 의존한다는 것을 상기시킨다. 이는 뉴스 기사, 소설 작품, 메시지 게시판 글, 위키피디아 글, 컴퓨터 프로그램, 사진, 팟캐스트 및 영화 클립을 포함한다.

Q: AI 훈련을 둘러싼 윤리적 딜레마는 무엇인가요?
A: 윤리적 딜레마는 AI 모델 훈련을 위한 디지털 데이터의 가용성이 제한적이라는 점에서 발생합니다. 기업들은 프라이버시 법률이나 저작권을 위배하지 않으면서 충분한 데이터를 확보하는 과제에 직면하고 있습니다.

Q: 오픈AI, 구글, 메타와 같은 기업들은 AI 모델을 위한 데이터를 어떻게 확보하고 있나요?
A: 이들 기업은 유튜브 동영상에서 오디오를 전사하거나 출판사를 인수하거나 공개적으로 이용 가능한 문서, 식당 리뷰 및 기타 온라인 자료에 접근하기 위한 약관을 확대하는 등 다양한 방법을 사용하고 있습니다.

Q: 데이터 경쟁이 절박한 이유는 무엇인가요?
A: 기술 기업들은 데이터를 생산하는 속도보다 그것을 이용하는 속도가 더 빨라지고 있습니다. 연구소들은 인터넷 상의 고품질 데이터가 2026년에는 고갈될 수 있다고 예측하고 있습니다.

인공지능 산업은 계속해서 발전해 나가고 있으며 데이터 수요는 복잡한 도전 과제를 제기합니다. 이해관계자들은 데이터 획득을 둘러싼 윤리적 딜레마를 탐색하고 법률적 틀을 준수하며 콘텐츠 창조자들의 권리를 존중하는 것이 중요합니다.

The source of the article is from the blog elblog.pl