인공 지능 모델은 다양한 데이터의 지속적인 흐름에 크게 의존하여 해석과 창작을 이끌어냅니다. 인간이 생성한 입력 데이터가 부족한 경우, 이러한 인공 지능 시스템은 자체 참조 루프에 빠져 자신의 결과물을 먹여 자체 주입을 가속할 수도 있습니다.
유명 대학의 연구자들이 수행한 최근 연구는 인간 기존 데이터 대신 합성 입력을 사용하여 생성적 인공 지능 모델을 훈련시키는 영향에 대한 빛을 쏘아 주었습니다. 모델 자체 소화 장애(MAD)로 명명된 이 현상은 소에서 유래한 신경 장애와 유사점을 가지며, 신선한 실제 세계 데이터 없이 AI 모델은 결과물의 품질과 다양성을 저하시킬 위험이 있습니다.
계산 공학자 리처드 바라니크는 미래의 생성적 모델 교육에 실제 데이터의 중요성을 강조합니다. MADness를 피하기 위해 반드시 실제 데이터가 필요합니다. 실험 결과, 합성 데이터만을 사용하여 훈련된 모델은 시간이 지남에 따라 결과물에 왜곡과 변질이 증가하는 것으로 나타나며, 균형 잡힌 입력 혼합의 필요성을 강조합니다.
인터넷 상의 AI 생성 콘텐츠 양이 증가함에 따라 데이터 품질의 저하와 “스롭” 증가에 대한 우려가 제기됩니다. 전문가들은 다양한 실제 세계 데이터의 부재가 AI 창의력 발전에서 예상치 못한 결과를 낳을 수 있다고 경고합니다. 진행 중인 과제는 AI 혁신을 주도하는 데이터에서 진정성과 참신함 사이의 균형을 유지하는 것에 있습니다.