La Intelligence Artificielle Crée des Vidéos Réalistes à Partir de Descriptions Textuelles

OpenAI a récemment dévoilé son dernier système d’IA, Sora, qui a la capacité de générer des vidéos photoréalistes basées sur des descriptions textuelles. Ce modèle révolutionnaire de génération de vidéos a suscité à la fois de l’excitation quant à l’avancée de la technologie de l’IA et des inquiétudes quant au potentiel de vidéos deepfake à propager la désinformation lors d’événements mondiaux cruciaux, tels que les élections.

Sora, capable actuellement de produire des vidéos d’une durée allant jusqu’à 60 secondes, utilise des instructions textuelles ou une combinaison de texte et d’images pour créer des séquences visuelles époustouflantes. Une démonstration impressionnante commence avec une description d’une femme élégante marchant dans une rue de Tokyo ornée de lumières chaudes au néon et de panneaux de ville animés. D’autres exemples incluent un chien joueur dans la neige, des véhicules se déplaçant sur des routes, voire des scénarios fantastiques comme des requins nageant parmi les gratte-ciels de la ville.

La génération de vidéos alimentée par l’IA représente un bond significatif en termes de réalisme et d’accessibilité. Rachel Tobac, cofondatrice de SocialProof Security, qualifie Sora d' »un ordre de grandeur plus crédible et moins caricatural » que ses prédécesseurs. En combinant deux techniques d’IA distinctes, Sora atteint un niveau de crédibilité plus élevé. La première technique, un modèle de diffusion similaire au générateur d’images DALL-E d’OpenAI, transforme progressivement des pixels d’image randomisés en visuels cohérents. La deuxième technique, appelée « architecture transformer », contextualise et assemble les données séquentielles, de la même manière que les modèles linguistiques construisent des phrases.

Malgré ses avancées, les vidéos de Sora présentent encore occasionnellement des erreurs, telles que des échanges de jambes, des chaises en lévitation ou des cookies perdant miraculeusement des traces de morsures. Détecter de telles anomalies suggère que les vidéos deepfake de cette nature restent identifiables dans des scènes complexes avec des mouvements intenses. Cependant, les experts mettent en garde contre le fait que la technologie évoluant, la société devra trouver des moyens alternatifs pour s’adapter.

OpenAI réalise des exercices rigoureux de « red team » pour évaluer les vulnérabilités de Sora avant de le rendre publiquement disponible. Ces tests impliquent des experts du domaine ayant de l’expérience dans la gestion de la désinformation, du contenu haineux et des biais. Comme les vidéos deepfake ont le potentiel de tromper des individus non avertis, il est crucial d’agir de manière proactive pour contrer leur impact. La collaboration entre les entreprises d’IA, les plateformes de médias sociaux et les gouvernements jouera un rôle essentiel dans la réduction des risques associés à l’utilisation généralisée du contenu généré par l’IA. La mise en place d’identifiants uniques ou de « watermarks » pour les vidéos générées par l’IA pourrait se révéler être une stratégie de défense efficace.

Bien qu’OpenAI n’ait pas divulgué de plans spécifiques pour la disponibilité de Sora en 2024, l’entreprise souligne l’importance de prendre des mesures de sécurité significatives avant sa sortie. Des processus automatisés sont déjà en place pour empêcher la génération de violence extrême, de contenu sexuel, d’images haineuses et de représentations de politiciens ou de célébrités réelles. Ces précautions sont particulièrement pertinentes alors qu’un nombre croissant de personnes participent aux élections, faisant de la sécurité et de l’intégrité du contenu numérique une priorité absolue.

The source of the article is from the blog jomfruland.net