Toekomst van door AI gegenereerde video's: Beperkingen overwinnen en nieuwe benaderingen verkennen

De release van OpenAI Sora heeft zowel opwinding als bezorgdheid teweeggebracht in verschillende vakgebieden, waaronder wetenschap, kunst en politiek. Hoewel de kwaliteit van de video’s die door Sora worden gegenereerd ontegenzeggelijk indrukwekkend is in vergelijking met eerdere door AI gegenereerde video’s, zijn er toch fundamentele gebreken die moeten worden aangepakt voordat de technologie effectief kan worden gebruikt in productie.

Helaas heeft OpenAI beperkte informatie verstrekt over de model(len) die Sora aandrijven. Er is echter bekend dat Sora gebruikmaakt van diffusie- en transformer-architecturen en op grote schaal is getraind dankzij de uitgebreide rekenkracht en gegevensbronnen van OpenAI. Ondanks dit is er wat speelse plagerij geweest tussen onderzoekers, waarbij wordt opgemerkt dat OpenAI open onderzoek van anderen heeft gebruikt zonder hun eigen onderzoek te delen.

Hoewel Sora opmerkelijke resultaten produceert, vertoont het nog steeds tekenen en artefacten die zijn gebrek aan begrip van de wereld onthullen. Hoewel het uitblinkt in het vastleggen van details binnen individuele scènes en objecten, schendt het vaak de basisprincipes van de natuurkunde en oorzaak en gevolg. Objecten kunnen plotseling verschijnen, schalen kunnen onjuist zijn en verschillende objecten kunnen door elkaar worden gehaald. Limsimulaties zijn met name een probleem, met voeten en handen die op onnatuurlijke manieren buigen. Bovendien worstelt het model met het nauwkeurig simuleren van complexe scènes en ruimtelijke details.

Het schalen van de modellen verder is een benadering om deze beperkingen aan te pakken, zoals te zien is bij eerdere op transformer gebaseerde modellen. Deze optie is echter kostbaar en voornamelijk toegankelijk voor bedrijven met aanzienlijke financiële en rekenkundige middelen. Alternatief kan het verkennen van verschillende trainingsmethoden en -technieken het huidige model verbeteren. Een voorbeeld van deze benadering is hoe GPT-4 voortbouwde op GPT-3 door middel van reinforcement learning van menselijke feedback en betere trainingsgegevens. Het rapport van OpenAI’s Sora hint naar het gebruik van synthetische gegevens om trainingsvoorbeelden te annoteren, een tactiek die verder kan worden geschaald met aanvullende middelen.

Een andere mogelijke oplossing houdt in dat de generatieve modellen worden herontworpen of worden gecombineerd met andere systemen om nauwkeurigere resultaten te behalen. Zo zou de output van Sora bijvoorbeeld kunnen worden doorgegeven aan een neurale radiance field (NeRF) om een 3D-kaart van de video te genereren, die vervolgens kan worden verfijnd met behulp van een natuurkundige simulator zoals Unreal Engine. Andere generatieve modellen, zoals StyleGAN, zouden ook kunnen worden ingezet om verlichting, stijl en andere aspecten van de uiteindelijke output te wijzigen.

Conclusie: hoewel OpenAI Sora baanbrekende ontwikkelingen presenteert in door AI gegenereerde video’s, zijn er nog aanzienlijke uitdagingen te overwinnen. Door verschillende benaderingen te verkennen, gebruik te maken van vooruitgang in trainingsmethoden en modellen te combineren met andere systemen, kan het potentieel voor echt realistische en accurate door AI gegenereerde video’s worden gerealiseerd. Het is een opwindende tijd voor het veld, met eindeloze mogelijkheden voor verdere innovatie en doorbraken in het verschiet.

FAQ sectie:

1. Wat is OpenAI Sora?
OpenAI Sora is een AI-model dat video’s genereert met behulp van diffusie- en transformer-architecturen. Het is op grote schaal getraind met behulp van de rekenkracht en gegevensbronnen van OpenAI.

2. Zijn de door Sora gegenereerde video’s indrukwekkend?
Ja, de video’s die door Sora worden gegenereerd, zijn ontegenzeggelijk indrukwekkend in vergelijking met eerdere door AI gegenereerde video’s.

3. Zijn er beperkingen aan de mogelijkheden van Sora?
Ja, Sora vertoont tekenen en artefacten die wijzen op een gebrek aan begrip van de wereld. Het schendt vaak de basisprincipes van de natuurkunde en oorzaak en gevolg, waarbij objecten plotseling verschijnen, schalen onjuist zijn en objecten door elkaar worden gehaald. Limsimulaties zijn problematisch, en complexe scènes en ruimtelijke details zijn moeilijk nauwkeurig te simuleren voor het model.

4. Hoe kunnen deze beperkingen worden aangepakt?
Een benadering is om de modellen verder op te schalen, zoals te zien is bij eerdere op transformer gebaseerde modellen. Deze optie is echter kostbaar en voornamelijk toegankelijk voor bedrijven met aanzienlijke financiële en rekenkundige middelen. Een andere benadering is het verkennen van verschillende trainingsmethoden en -technieken, zoals reinforcement learning van menselijke feedback en synthetische gegevensannotatie.

5. Kunnen generatieve modellen worden herontworpen of gecombineerd met andere systemen voor betere resultaten?
Ja, het combineren van de output van Sora met een neurale radiance field (NeRF) om een 3D-kaart van de video te genereren en deze te verfijnen met een natuurkundige simulator zoals Unreal Engine is een mogelijke oplossing. Andere generatieve modellen zoals StyleGAN kunnen ook worden ingezet om verlichting, stijl en andere aspecten van de uiteindelijke output te wijzigen.

The source of the article is from the blog elektrischnederland.nl