미래를 여는 OpenAI 의 Voice Generation 기술

OpenAI는 ChatGPT와 Sora AI와 같은 다양한 프로젝트로 인공지능 분야에서 놀라운 발전을 이루어 왔습니다. 그 중에서도 최근에 Voice Generation이라는 새로운 기능을 도입했습니다. 이 도구는 단 15초의 오디오 샘플만으로 합성 음성을 만들어내는 기능을 갖추고 있습니다.

2022년 말부터 계속해서 개발된 Voice Engine은 현재 소규모 미리보기를 진행 중에 있습니다. 이 기능은 이미 ChatGPT 앱의 Loud Aloud 기능에서 활용되고 있으며 사용자에게 답변을 읽어주는 역할을 합니다. 짧은 샘플로 음성을 훈련시킨 후 사용자는 그 음성을 이용하여 원하는 텍스트를 읽을 수 있으며, 감정적이고 현실적인 톤으로 읽어줍니다.

Voice Generation의 잠재적인 활용 분야는 매우 다양합니다. OpenAI는 이 기술을 교육 목적으로 활용하거나, 팟캐스트를 다른 언어로 번역하거나, 비구술 소통을 지원하거나, 언어를 사용하지 못하는 개인을 지원하는 데 사용될 수 있다고 제안하고 있습니다. 그러나, Voice Engine은 일반 대중이 사용할 수 있는 상태로 아직까지 널리 보급되지 않았습니다.

OpenAI는 Voice Engine이 생성한 합성 음성의 샘플을 공유하면서 그 품질에 감탄을 받았습니다. 그러나 약간의 기계적이고 조리있는 품질이 있어 이를 개선할 필요가 있다는 것을 시사했습니다.

Voice Engine의 배포를 둘러싼 주요 우려점은 오용의 위험입니다. OpenAI는 오용, 오류로 인한 미션으로부터 부정 사용을 방지하기 위한 방법에 대해 적극적으로 연구하고 있습니다. 회사는 이 기술의 책임 있는 사용에 대한 대화를 시작하고 사회가 이 새로운 능력에 적응하는 방법을 탐색할 것입니다. 소규모 테스트 결과와 이들 대화를 바탕으로 OpenAI는 Voice Generation을 어디에 어떻게 배포할지에 대해 신중히 검토할 것입니다.

합성 음성의 오용은 음성 인증 및 가능한 사기에서 중대한 결과를 초래할 수 있습니다. 미래의 미 대선과 영국 대선이 예정되어 있어, 음성을 포함한 모든 AI 콘텐츠의 신뢰 문제가 중요해지고 있습니다.

이러한 도전에 대한 효과적인 해결책을 찾는 것이 점점 더 중요해지며, 생성적 AI 도구가 계속 발전하는 가운데 OpenAI는 이러한 문제의 복잡성을 인정하고 이를 해결하는 방법을 찾아내는 필요성을 제기합니다.

새로운 산업 혁명: Voice Generation의 무한한 가능성The source of the article is from the blog foodnext.nl

새로운 산업 혁명: Voice Generation의 무한한 가능성
The source of the article is from the blog foodnext.nl