革新的なAIツールが写真をハイパーリアルな話す顔に変換します

マイクロソフトの研究者たちは、静止画をリアルな動画に作り変えることができる先進的な人工知能ツールを開発しました。これにより、話す顔の高度にリアルなビデオを作成することが可能です。テック企業による報告によると、この技術革新は人工知能をポジティブな目的に活用することを目指しています。

同社がVASA-1と名付けたAIテクノロジーは、単純な顔写真と音声録音をキャプチャし、それらを動く話す顔の説得力のあるビデオに変換します。 この技術の潜在的な応用は多岐にわたり、教育の平等性向上、コミュニケーション障害を持つ人々の支援、必要とする人々に対する治療的サポートツールなどが含まれます。

ポジティブな意図にもかかわらず、マイクロソフトは誤解を招くコンテンツ作成に悪用される可能性があると認めています。同社は、テクノロジーが誤解を招くか有害なコンテンツの制作に使用されることに反対しています。 これらの懸念を踏まえ、マイクロソフトは、AI企業OpenAIの主要投資家である同社がリリース時まで新しいツールや関連技術情報を適切に使用し、既存の法律に準拠していることを確認するまで慎重に対応しています。

RunwayやGoogleの「Imaginaire」プロジェクトなど、AIによる動画生成に特化した他の企業も、リアルなバーチャルアバターの創造分野に進出しています。AIによるコンテンツが現実と区別がつかなくなるにつれ、このようなツールの倫理的考慮と潜在的な利点がテック業界のアジェンダの第一線にあります。

関連する質問と回答:

Q：VASA-1は写真を話す顔に変換するためにどのように機能するのですか？
A：VASA-1の具体的な技術的詳細は開示されていませんが、おそらく顔認識、機械学習、コンピュータビジョンアルゴリズムの組み合わせが使用されていると考えられます。システムは写真の顔の構造を分析し、3Dモデルにマップし、それから顔の動きを合成し、与えられた音声録音にリップシンクして説得力のあるビデオを作成します。

Q：VASA-1などのAIツールの開発に関連するいくつかの課題は何ですか？
A：技術が悪意ある目的のディープフェイクを作成するために使用されないようにすること、画像と声が使用される個人のプライバシーを守ること、AIを介して”生命”をもたらされる個人の同意などの倫理的懸念を対処することが挙げられます。さらに、恐ろしい「アンカニーバレー」と呼ばれる不安定な領域に入らずに、高いリアリズムレベルを達成することは重要な技術的課題です。

Q：このようなAIツールに関連する論争は何が考えられますか？
A：ディープフェイクを作成するためにこのような技術を使用する可能性は、誤情報、偽装、詐欺に関する懸念を引き起こします。自分の肖像権と声に関する法的影響が考えられ、デジタルコンテンツへの信頼に係る社会的影響が想定されます。

利点:
– 教育ツールは、歴史的な人物や作家を講義や朗読をしているかのように提示するためにこの技術を使用できます。
– 発話の障害を持つ個人にとってコミュニケーション支援が可能で、より自然に他の人たちと交流するのに役立ちます。
– 治療的支援は、患者がバーチャルアバターとインタラクトできるようにし、治療やリハビリテーションに役立ちます。

欠点:
– 説得力のある偽動画を作成するために使用され、誤情報の拡散に寄与する可能性があります。
– 同意に関する倫理的懸念や、死亡した人々の画像がアニメーション化されることによって家族に引き起こされる可能性の悩みがあります。
– そのようなツールが一般的になると、実際の人間関係やコミュニケーションが低下するリスクがあります。

関連リンク:
– マイクロソフトのAIイニシアチブに関する詳細は、Microsoft をご覧ください。
– 他のAI関連技術やプロジェクトについて知るには、OpenAI を参照してください。
– Googleの「イマジネール」プロジェクトを含むAIへの進出について学ぶには、Google をご覧ください。

The source of the article is from the blog mgz.com.tw