メタの最新のAIモデルがインスタグラムでマーク・ザッカーバーグによる懐かしい動画を通じて披露

メタ（旧Facebook）の共同創設者兼CEOであるマーク・ザッカーバーグが、インスタグラムで娘のマキシマにギターを弾きながら歌う様子を共有する懐かしい動画を投稿し、フォロワーたちを驚かせました。しかし、これはただの投稿ではありませんでした。ザッカーバーグはこの動画を通じて、メタの最新人工知能（AI）モデルであるV-JEPAをテストしていたことを明らかにしました。

V-JEPAはVideo Joint Embedding Predictive Architectureの略で、視覚メディアからだけを学ぶ画期的な予測分析モデルです。従来のAIモデルとは異なり、V-JEPAは生成的手法に頼るのではなく、ビデオの抽象的な表現空間で欠落した部分やマスクされた部分を予測することにより学習します。

インスタグラムの投稿のキャプションでは、ザッカーバーグがその動画とAIモデルの重要性を説明しました。「マキシマのお気に入りの歌を歌っている映像の懐かしい思い出。最近、このビデオを新しいAIモデルでテストしました。ビデオを見て世界を学習するAIモデルは、私がコードを弾いている手の動きを予測しました。結果を見るためにスワイプしてください。」

投稿には2つのビデオが含まれていました。1つ目はザッカーバーグの娘との感動的なパフォーマンスを紹介し、2つ目はV-JEPAモデルがギターを弾いている間の彼の手の動きを正確に予測したものでした。

V-JEPAを訓練するために、メタは革新的なマスキング技術を使用しました。これにより、ビデオの一部を時間と空間の両方でマスクし、一部のフレームを完全に削除したり黒く塗りつぶしたりしました。これにより、AIモデルは現在と次のフレームの両方を予測する課題に直面し、コンテンツの理解と将来の出来事を予測する能力を向上させました。

メタは、V-JEPAがこれらのタスクを効率的に実行し、最大で10秒の長さのビデオを分析できると主張しています。このモデルは、ペンを置いたり、ペンを取ったり、実際にはやっていないのにペンを置いたふりをするなどのアクションを区別するなどの高度なアクション認識タスクで有望な結果を示しています。

メタがV-JEPAを使用することはAIや機械学習の推進に対する同社の取り組みを示しています。V-JEPAのような革新的なモデルを開発することで、メタはAIが達成できる可能性の限界を押し広げ、さまざまな産業やアプリケーションに新たな可能性を提供することを目指しています。

マーク・ザッカーバーグがAIの可能性を探求し続ける中、今後ますますエキサイティングな展開がメタから期待できます。

The source of the article is from the blog enp.gr