인공지능이 텍스트 설명으로 사실적인 비디오 생성

OpenAI는 최근 Sora라는 최신 AI 시스템을 공개했습니다. 이 시스템은 텍스트 설명을 기반으로 사실적인 비디오를 생성할 수 있는 능력을 갖추고 있습니다. 이 혁신적인 비디오 생성 모델은 AI 기술 발전에 대한 기대감을 불러일으키고 선거와 같은 중요한 글로벌 사건 중에 딥페이크 비디오가 정보의 왜곡과 선동을 확산시킬 가능성에 대한 우려를 불러일으켰습니다.

Sora는 현재 60초까지의 비디오를 생성할 수 있는 능력을 갖추고 있으며, 텍스트 지침 또는 텍스트와 이미지 조합을 활용하여 멋진 시각적 시퀀스를 만들어냅니다. 인상적인 데모 비디오 중 하나는 온몸에 따뜻한 네온 조명과 애니메이션된 도시 표지판이 장식된 도쿄 거리를 걸어다니는 세련된 여성을 설명하는 프롬프트로 시작됩니다. 다른 예시로는 눈속에서 놀러운 개, 도로를 달리는 차량, 심지어 상어가 도시의 초고층 사무실 사이를 수영하는 환상적인 시나리오 등이 있습니다.

AI 기반 비디오 생성은 현실감과 접근성 측면에서 중요한 발전을 이루었습니다. SocialProof Security의 공동 창업자인 Rachel Tobac은 Sora를 이전 모델보다 “매우 믿을 만하고 만화적이지 않다”고 칭찬합니다. Sora는 두 가지 다른 AI 기술을 결합함으로써 더 높은 수준의 신뢰성을 달성합니다. 첫 번째 기술인 DALL-E 이미지 생성기와 유사한 확산 모델은 무작위 이미지 픽셀을 조직적인 시각으로 변환합니다. 두 번째 기술인 “트랜스포머 아키텍처”는 순차적 데이터를 문맥화하고 조립하여 언어 모델이 문장을 구성하는 것과 유사한 작업을 수행합니다.

하지만 Sora의 비디오는 가끔 다리를 바꾸거나 부유하는 의자, 갑자기 물반이 사라지는 쿠키와 같은 오류가 발생할 수 있습니다. 이러한 결함을 감지하는 것은 이러한 형태의 딥페이크 비디오가 복잡한 움직임이 많이 있는 장면에서 식별 가능하다는 것을 시사합니다. 그러나 전문가들은 기술이 발전함에 따라 사회가 대처하는 대안적 방법을 찾아야 할 필요가 있다고 경고합니다.

OpenAI는 Sora의 취약성을 평가하기 위해 엄격한 “레드팀” 훈련을 실시하고 이를 공개적으로 이용하기 전에 테스트하고 있습니다. 이러한 테스트에는 정보의 왜곡, 혐오 콘텐츠, 편향을 다루는 경험이 있는 분야 전문가가 참여합니다. 딥페이크 비디오는 사람들을 속일 가능성이 있기 때문에 그 영향에 대응할 때 적극적으로 대처하는 것이 중요합니다. AI 기업, 소셜 미디어 플랫폼 및 정부 간의 협력은 AI 생성 콘텐츠의 널리 사용되는 위험을 완화하는 데 중요한 역할을 할 것으로 예상됩니다. AI 생성 비디오에 대한 고유 식별자나 “워터마크”를 구현하는 것이 효과적인 방어 전략으로 나타날 수 있습니다.

OpenAI는 2024년에 Sora를 이용 가능하게 하는 구체적인 계획을 아직 공개하지 않았지만, 이 출시 전에 중요한 안전 조치를 취하는 중요성을 강조하고 있습니다. 사실적인 폭력, 음란 콘텐츠, 혐오적 이미지, 실제 정치인이나 유명인의 표현을 생성하지 않도록 자동화된 절차가 이미 시행 중에 있습니다. 이러한 예방 조치는 점점 더 많은 사람들이 선거에 참여하면서, 디지털 콘텐츠의 보안과 무결성이 최우선 과제로 여겨질 때 특히 관련이 있습니다.

The source of the article is from the blog foodnext.nl