Microsoft presenta l’IA che converte immagini statiche in video realistici utilizzando il suono.

L’intelligenza artificiale crea video da foto

Microsoft Research Asia ha presentato un rivoluzionario modello di intelligenza artificiale (IA) capace di creare video ‘deepfake’ estremamente realistici da un’immagine fissa associata a un file audio. L’IA è stata addestrata su circa 6.000 immagini di volti parlanti del dataset VoxCeleb2, il che le consente non solo di sincronizzare perfettamente i movimenti labiali con la registrazione audio fornita, ma anche di generare video sorprendentemente realistici.

L’IA di prossima generazione trasforma immagini statiche in video dinamici

Oltre alla sincronizzazione dei movimenti labiali, questo nuovo modello di IA dona vita a varie espressioni facciali e movimenti naturali della testa tutti derivati da una singola fotografia. Avanzato ma simile al Modello di Sintesi Audio2Video dell’Istituto di Computazione Intelligente di Alibaba, il VASA-1 di Microsoft può generare video sincronizzati a 40 fotogrammi al secondo con un ‘trascurabile ritardo iniziale’ a una risoluzione di 512×512 pixel.

Le sorprendenti capacità dell’IA sono state dimostrate utilizzando esempi reali eccezionali e foto di riferimento generate dall’IA, incluso StyleGAN2 o DALL-E, per evidenziare la capacità del modello di andare oltre il proprio set di addestramento. Un esempio notevole ha presentato la celebre opera d’arte – la Monna Lisa – prendere vita in forma rap.

Inoltre, il modello include controlli opzionali che consentono regolazioni come dinamiche facciali, espressioni, stati emotivi e persino la distanza percepita dalla telecamera video virtuale.

Una nuova finestra sull’interazione umana potenziata dall’IA

Un’affermazione introduttiva all’interno di un articolo dettagliato suggerisce che l’emergere di volti parlanti generati dall’IA apre una finestra su un futuro in cui la tecnologia enfatizza la ricchezza delle interazioni umane-umane e umane-IA. La tecnologia promette di migliorare la comunicazione digitale, aumentare l’accessibilità per coloro con disabilità comunicative, trasformare l’istruzione attraverso l’IA interattiva e fornire supporto terapeutico e interazione sociale nei servizi sanitari.

L’Intelligenza artificiale in testa alla generazione realistica dei media

La presentazione da parte di Microsoft di una tecnologia IA che anima immagini fisse in video dinamici utilizzando audio correlati è un avanzamento all’avanguardia nel campo della tecnologia dei deepfake e della creazione di media. Questo tipo di IA ha implicazioni di ampia portata e possibili casi d’uso, toccando settori come l’intrattenimento, l’educazione e le telecomunicazioni.

Le questioni etiche e di verifica

Una delle domande più importanti che sorgono con la capacità di creare video realistici da immagini è la questione etica e il potenziale abuso. I deepfake sono stati un argomento caldo a causa del loro potenziale utilizzo nella diffusione di disinformazione, nella creazione di rappresentazioni false di individui e nel pregiudizio della privacy e della sicurezza. La verifica dell’autenticità diventa una sfida critica, poiché diventa sempre più difficile distinguere i contenuti generati dall’IA da video autentici.

Vantaggi e svantaggi dei video generati dall’IA

Ci sono diversi vantaggi in questa tecnologia, tra cui:
Accessibilità: può potenzialmente aiutare coloro con disabilità comunicative generando video dall’aspetto naturale del discorso.
Istruzione e formazione: le esperienze di apprendimento interattive possono essere migliorate con figure realistiche generate dall’IA, migliorando il coinvolgimento dell’utente.
Intrattenimento: le industrie cinematografica e videoludica possono utilizzare questa tecnologia per creare personaggi realistici senza attori fisici, risparmiando tempo e risorse.

Allo stesso tempo, gli svantaggi includono:
Preoccupazioni etiche: la facilità di creare deepfake solleva preoccupazioni sulla diffusione di disinformazione e sulla creazione di contenuti non consensuali.
Questioni sulla privacy: c’è il potenziale abuso nell’animare foto senza il consenso dell’individuo.
Rischi per la sicurezza: la sicurezza nazionale e la sicurezza personale potrebbero essere compromesse dai deepfake che creano prove false o impersonano figure pubbliche.

Per coloro interessati a esplorare le potenzialità e le preoccupazioni dell’IA nel dominio della creazione di contenuti, i seguenti principali ambiti potrebbero offrire ulteriori approfondimenti:
Microsoft: Scopri le continue innovazioni dell’azienda in ambito di IA e la loro posizione sull’uso etico dell’IA.
DeepMind: Esplora la ricerca all’avanguardia sull’IA che affronta alcune di queste sfide chiave.
OpenAI: Acquisisci conoscenze sugli sviluppi dell’IA e sulle considerazioni etiche da una delle principali organizzazioni di ricerca.

Data l’emergenza di tali capacità di IA da parte di Microsoft Research Asia, è richiesta non solo una valutazione tecnica, ma anche considerazioni etiche, formulazione di politiche e dibattito pubblico per stabilire normative, regolamentazioni e salvaguardie contro gli abusi.

The source of the article is from the blog radardovalemg.com

Privacy policy
Contact