Microsoft Research Asia leder utvecklingen av avancerad animation med användning av AI

Microsofts AI-forskningsteam från Asien har gjort ett banbrytande genombrott inom konstgjord intelligens och animation. Deras senaste innovation innebär en AI-applikation som har förmågan att animera statiska bilder så att de framstår som att de talar eller sjunger tillsammans med en medföljande ljudspår, komplett med övertygande realistiska ansiktsuttryck.

Forskarna har framgångsrikt skapat en plattform, vid namn VASA-1, som kan animera vilken statisk bild som helst – vare sig det är ett fotografi, en teckning eller till och med en målning – till vad de kallar en ”utmärkt synkad” animation. Denna precision i att justera den avbildade personens läpprörelser och ansiktsuttryck med ljudet är banbrytande jämfört med liknande teknologier som setts tidigare.

Till exempel demonstrerade teamet detta system genom att animera en tecknad version av Mona Lisa rappandes, samt genom att förvandla ett fotografi på en kvinna till en sångframträdande. Bland dessa exempel kan subtila förändringar i ansiktsuttrycken ses, vilket förstärker tydligheten och effekten av de talade orden.

Under utvecklingsfasen tränade forskarna sin applikation på tusentals bilder med en varierad uppsättning ansiktsuttryck. De resulterande animationerna presenteras i en upplösning av 512 x 512 pixlar och körs smidigt med 45 bildrutor per sekund. Skapandet av dessa videor tar cirka två minuter och använder en kraftfull Nvidia RTX 4090 desktop-GPU.

De potentiella användningsområdena för VASA-1 är mångsidiga, inklusive att skapa otroligt realistiska avatarer för datorspel eller simuleringar. Forskarteamet är emellertid försiktigt med möjligheten att skapa hyperrealistiskt deepfake-innehåll. Därför har de inte släppt teknologin för allmän användning. Tänk dig vilka möjligheter som skulle öppna sig om en sådan teknologi kombinerades med andra AI-drivna videoapplikationer som OpenAIs Sora.

För mer insikter och detaljerade demonstrationer kan nyfikna läsare och teknikentusiaster hitta ytterligare information på det officiella projektsidan som tillhandahålls av forskarteamet.

Viktiga frågor och svar:

Fråga: Vilka är de potentiella tillämpningarna för VASA-1-teknologin?
Svar: VASA-1 kan användas för att skapa realistiska avatarer för datorspel eller simuleringar, förbättra gränssnitten för virtuella assistenter, skapa dynamiskt innehåll för digital marknadsföring och återuppliva historiskt material eller fotografier. Dessutom har den potential att användas i film- och underhållningsbranschen för att skapa specialeffekter eller för digital återupplivning av avlidna kändisar.

Fråga: Vilka är de etiska övervägandena och utmaningarna för avancerad AI-animation?
Svar: Ett av huvudbekymren är risken för deepfake-skapande, som kan användas för att generera vilseledande eller skadligt innehåll, kränka integriteten, och skapa falska representationer av individer. Teknologin kan också utmana immaterialrätten och äktheten hos digitala medier.

Viktiga utmaningar och kontroverser:

– Etisk användning: Utvecklingen av hyperrealistisk animering genom AI väcker viktiga etiska frågor, särskilt om samtycke och risken för missbruk vid skapa

The source of the article is from the blog rugbynews.at