Microsoft dévoile VASA-1 : une IA qui anime les photos avec du son synchronisé

Le nouveau IA de Microsoft peut animer des personnages parlants ou chantants à partir d’images uniques

Microsoft a présenté un modèle d’intelligence artificielle de pointe, VASA-1, capable de créer des vidéos animées de visages parlants ou chantants à partir d’une simple photographie et d’une piste audio. Dans le futur, cette technologie pourrait potentiellement alimenter des avatars virtuels, leur permettant de fonctionner sans avoir besoin de séquences vidéo existantes. Les utilisateurs pourraient également animer des photos trouvées en ligne avec n’importe quel contenu parlé choisi.

Le modèle VASA-1 utilise l’apprentissage automatique avancé pour évaluer les images fixes et les clips audio. Il génère ensuite automatiquement des vidéos réalistes avec des expressions faciales précises, des mouvements de tête et une synchronisation avec l’audio. Microsoft affirme que leur modèle améliore considérablement le réalisme, l’expressivité et l’efficacité par rapport aux méthodes précédentes d’animation de la parole. Cependant, il ne crée ni n’imite la parole, se basant uniquement sur l’entrée sonore existante, soulignant son utilisation principale dans la recherche plutôt que comme produit commercial ou déploiement d’API.

La formation pour VASA-1 était basée sur la base de données VoxCeleb2 établie par des chercheurs de l’Université d’Oxford en 2018. Ce riche ensemble de données contient plus d’un million d’enregistrements vocaux de 6 112 célébrités, provenant de YouTube. Avec la capacité de générer des vidéos en résolution de 512×512 pixels et un maximum de 40 images par seconde, les applications de VASA-1 pourraient s’étendre aux visioconférences en direct en raison de sa quasi-absence de latence.

Microsoft a créé une page de recherche pour VASA-1, présentant une variété de vidéos d’exemples démontrant le contrôle du modèle sur diverses expressions émotionnelles ou directions de regard. Les exemples incluent des sorties plus créatives, comme la synchronisation de l’image de Mona Lisa avec une piste audio d’Anne Hathaway interprétant la chanson « Paparazzi » dans l’émission de Conan O’Brien.

Les chercheurs de Microsoft ont été clairs sur le fait que leur objectif n’est pas de créer des imitations trompeuses de vraies personnes, mais d’explorer le potentiel de la technologie visuelle dans la génération de personnages virtuels interactifs. Ils sont conscients des abus potentiels et n’ont aucun plan de rendre le code de la technologie public. De plus, l’équipe cherche à faire progresser les techniques de détection des contrefaçons et s’oppose à toute action créant du contenu trompeur ou préjudiciable sur de vraies personnes.

Applications et implications de VASA-1

La technologie de VASA-1 pourrait avoir des implications significatives dans divers domaines tels que le divertissement, l’éducation et le service client. Par exemple, VASA-1 pourrait être utilisé pour créer des assistants virtuels capables d’exprimer des émotions de manière réaliste ou de donner vie à des figures historiques à des fins éducatives. Dans l’industrie du divertissement, elle pourrait être utilisée pour produire des vidéoclips musicaux ou animer des personnages pour des films et des jeux vidéo sans de longues sessions de capture de mouvement.

Principaux défis et controverses

Un défi clé associé aux technologies comme VASA-1 est la préoccupation éthique liée aux deepfakes. La technologie deepfake permet la création de forgeries vidéo étonnamment réalistes, entraînant des utilisations potentiellement nuisibles telles que la propagation de désinformation, l’usurpation d’identité et les violations de la vie privée. La position de Microsoft de ne pas rendre publiquement le code de la technologie est une réponse à ces préoccupations, visant à prévenir les abus. De plus, garantir le consentement des personnes dont les images et voix sont utilisées lors de la génération de contenu avec VASA-1 est une question d’importance légale et éthique.

Avantages

– Pourrait améliorer l’apprentissage virtuel et les présentations en ligne.
– Pourrait conduire à des développements dans le divertissement numérique, la réalité virtuelle et augmentée.
– Peut personnaliser les expériences des utilisateurs dans les jeux vidéo et les médias sociaux.

Inconvénients

– Risque de mauvaise utilisation en créant des deepfakes.
– Préoccupations éthiques concernant le consentement à l’utilisation de l’apparence des individus.
– Défis pour distinguer le contenu généré des enregistrements authentiques, soulevant des inquiétudes en journalisme, en application de la loi et dans d’autres domaines sensibles.

Pour plus d’informations sur les innovations de Microsoft, vous pouvez visiter le site principal sur Microsoft.

The source of the article is from the blog lokale-komercyjne.pl

Privacy policy
Contact