Framtiden för AI-genererade videor: Övervinna begränsningar och utforska nya tillvägagångssätt

Utgivningen av OpenAI Sora har väckt både spänning och oro inom olika områden, inklusive vetenskap, konst och politik. Även om kvaliteten på videorna som genereras av Sora är imponerande jämfört med tidigare AI-genererade videor, finns det fortfarande grundläggande brister som behöver åtgärdas innan tekniken kan användas effektivt i produktion.

Tyvärr har OpenAI gett begränsad information om modellerna som driver Sora. Det är emellertid känt att Sora använder diffusion och transformer-arkitekturer och har tränats i stor omfattning tack vare OpenAIs omfattande beräknings- och dataresurser. Trots detta har det funnits lekfulla kommentarer mellan forskare, där en påpekar att OpenAI har använt öppen forskning från andra utan att dela med sig av sin egen.

Även om Sora producerar anmärkningsvärda resultat visar den fortfarande tecken och artefakter som avslöjar dess bristande förståelse för världen. Medan den är bra på att fånga detaljer inom enskilda scener och objekt bryter den ofta mot grundläggande fysikprinciper och orsakssamband. Objekt kan plötsligt dyka upp, skalen kan vara felaktiga och olika objekt kan blandas ihop. Limbsimuleringar är särskilt problematiska, med fötter och händer som böjer sig på onaturliga sätt. Dessutom har modellen svårt att noggrant simulera komplexa scener och spatiala detaljer.

En tillvägagång för att tackla dessa begränsningar är att skala modellerna ytterligare, vilket har gjorts tidigare med transformerbaserade modeller. Men detta alternativ är kostsamt och främst tillgängligt för företag med betydande ekonomiska och beräkningsmässiga resurser. Alternativt kan utforskning av olika träningsmetoder och tekniker förbättra den nuvarande modellen. Ett exempel på detta är hur GPT-4 byggde på GPT-3 genom förstärkningsinlärning från mänsklig feedback och bättre träningsdata. OpenAIs Sora-rapport antyder användningen av syntetiska data för att annotera tränings exempel, en taktik som kan skala ytterligare med ytterligare resurser.

En annan potentiell lösning involverar att omformatera de generativa modellerna eller kombinera dem med andra system för att uppnå mer noggranna resultat. Till exempel kan Soras utdata skickas till ett neuralt ljusfält (NeRF) för att generera en 3D-karta över videon, som sedan kan förbättras med hjälp av en fysiksimulator som Unreal Engine. Andra generativa modeller, som StyleGAN, kan också användas för att modifiera ljus, stil och andra aspekter av det slutliga resultatet.

Sammanfattningsvis, även om OpenAI Sora presenterar banbrytande framsteg inom AI-genererade videor, finns det fortfarande betydande utmaningar att övervinna. Genom att utforska olika tillvägagångssätt, dra nytta av framsteg inom träningsmetoder och kombinera modeller med andra system kan potentialen för verkligt realistiska och exakta AI-genererade videor förverkligas. Det är en spännande tid för fältet, med oändliga möjligheter till ytterligare innovationer och genombrott inom räckhåll.

The source of the article is from the blog motopaddock.nl