OpenAI onthult Sora: een AI-videogenerator met ongekende mogelijkheden

OpenAI heeft onlangs hun nieuwste innovatie geïntroduceerd, een geavanceerd kunstmatige intelligentie (AI) model genaamd Sora. Deze baanbrekende tekst-naar-video-generatietool heeft de opmerkelijke mogelijkheid om video’s te maken van maximaal 60 seconden lang. Dit overtreft de mogelijkheden van zijn concurrenten, waaronder Lumiere van Google.

Sora is momenteel toegankelijk voor red teamers en geselecteerde cybersecurity-experts, die een essentiële rol spelen bij het grondig testen van software om de kwaliteit ervan te verbeteren. Daarnaast hebben ook enkele contentmakers toegang gekregen tot deze baanbrekende AI-tool. De toekomstplannen van OpenAI omvatten het opnemen van metadata van de Coalition for Content Provenance and Authenticity (C2PA) in Sora zodra het als een officieel OpenAI-product wordt ingezet.

Volgens de aankondiging van OpenAI heeft Sora de kracht om zeer gedetailleerde scènes te genereren met complexe camerabewegingen, meerdere personages en rijk expressieve emoties. Deze verlengde videoduur is meer dan tien keer langer dan die van prominente concurrenten. Runway AI en Pika 1.0 kunnen video’s genereren van respectievelijk slechts 4 en 3 seconden lang, terwijl Lumiere van Google tekortschiet met slechts 5 seconden.

OpenAI heeft meerdere video’s gedeeld die zijn geproduceerd door Sora, samen met de prompts die werden gebruikt om ze te maken. Deze video’s vertonen uitzonderlijk gedetailleerde en vloeiende bewegingen, waardoor ze zich onderscheiden van andere videogeneratoren die op de markt beschikbaar zijn. Het bedrijf beweert dat Sora ingewikkelde scènes kan genereren met verschillende personages, camerastanden, specifieke bewegingstypes en nauwkeurige onderwerps- en achtergrondgegevens. Dit wordt mogelijk gemaakt door het vermogen van het model om zowel de prompts als de fysieke wereld die het vertegenwoordigt, te begrijpen.

Sora functioneert als een diffusie-model dat een transformer-architectuur gebruikt, vergelijkbaar met de GPT-modellen van OpenAI. De data die het verwerkt en genereert, is onderverdeeld in patches, vergelijkbaar met tokens in tekstgenererende modellen. Deze patches bestaan uit gebundelde video’s en afbeeldingen, waardoor OpenAI het videogeneratiemodel kan trainen over verschillende duur, resolutie en beeldverhouding. Opmerkelijk is dat Sora ook stilstaande beelden kan omzetten in dynamische video’s.

Hoewel Sora indrukwekkende mogelijkheden biedt, erkent OpenAI dat het huidige model bepaalde beperkingen heeft. Het kan moeite hebben om complexe fysieke scènes nauwkeurig te simuleren en specifieke oorzakelijk-verbandrelaties te begrijpen. OpenAI gebruikt als voorbeeld een persoon die een hap neemt uit een koekje, maar waarbij het koekje geen hapmarkeringen laat zien.

OpenAI neemt proactieve maatregelen om misbruik van Sora voor het maken van schadelijke inhoud, zoals deepfakes, te voorkomen. Het bedrijf ontwikkelt tools om misleidende inhoud te detecteren en heeft plannen om metadata van de Coalition for Content Provenance and Authenticity (C2PA) in de gegenereerde video’s te implementeren, nadat deze praktijk met succes is toegepast bij hun DALL-E 3-model. OpenAI werkt ook samen met red teamers en domeinexperts, met name degenen die gespecialiseerd zijn in misinformatie, haatdragende inhoud en vooringenomenheid, om de prestaties van het model te verbeteren en mogelijke zorgen aan te pakken.

Hoewel Sora momenteel toegankelijk is voor een beperkte groep individuen, waaronder red teamers, visuele artiesten, ontwerpers en filmmakers, zoekt OpenAI actief feedback om het product te verfijnen en te verbeteren. Naarmate deze innovatieve technologie zich blijft ontwikkelen, biedt het veelbelovende mogelijkheden om het veld van videoproductie te revolutioneren.

Veelgestelde vragen:

1. Wat is Sora?
Sora is een kunstmatige intelligentie (AI)-model ontwikkeld door OpenAI. Het is een geavanceerd tekst-naar-video-generatietool dat video’s kan maken van maximaal 60 seconden lang.

2. Hoe verhoudt Sora zich tot zijn concurrenten?
Sora overtreft zijn concurrenten, waaronder Lumiere van Google, qua videoduur. Terwijl Sora video’s kan genereren van maximaal 60 seconden lang, kan Lumiere slechts video’s maken van maximaal 5 seconden lang.

3. Wie heeft momenteel toegang tot Sora?
Sora is toegankelijk voor red teamers (individuen die software grondig testen op kwetsbaarheden) en geselecteerde cybersecurity-experts. Ook enkele contentmakers hebben toegang gekregen tot deze AI-tool.

4. Hoe gedetailleerd en expressief zijn de video’s die door Sora worden gemaakt?
Sora heeft de kracht om zeer gedetailleerde scènes te genereren met complexe camerabewegingen, meerdere personages en rijk expressieve emoties. De langere videoduur van Sora overtreft die van zijn concurrenten.

5. Hoe functioneert Sora?
Sora is een diffusie-model dat een transformer-architectuur gebruikt, vergelijkbaar met de GPT-modellen van OpenAI. Het verwerkt en genereert data in patches, vergelijkbaar met tokens in tekstgenererende modellen, die bestaan uit gebundelde video’s en afbeeldingen.

6. Wat zijn de beperkingen van Sora?
Hoewel Sora indrukwekkende mogelijkheden biedt, kan het moeite hebben om complexe fysieke scènes nauwkeurig te simuleren en specifieke oorzakelijk-verbandrelaties te begrijpen. OpenAI geeft als voorbeeld een persoon die een hap neemt uit een koekje, maar waarbij het koekje geen hapmarkeringen laat zien.

7. Hoe pakt OpenAI zorgen over het misbruik van Sora aan?
OpenAI neemt proactieve maatregelen om misbruik van Sora, zoals het maken van schadelijke inhoud zoals deepfakes, te voorkomen. Het bedrijf ontwikkelt tools om misleidende inhoud te detecteren en heeft plannen om metadata van de Coalition for Content Provenance and Authenticity (C2PA) toe te passen in de gegenereerde video’s.

8. Wie kan feedback geven over Sora?
Hoewel Sora momenteel toegankelijk is voor een beperkte groep, waaronder red teamers, visuele artiesten, ontwerpers en filmmakers, zoekt OpenAI actief feedback van deze gebruikers om het product te verfijnen en te verbeteren.

Belangrijke termen/jargon:
– AI (kunstmatige intelligentie): De simulatie van menselijke intelligentie in machines die geprogrammeerd zijn om taken uit te voeren die doorgaans menselijke intelligentie vereisen, zoals visuele perceptie, spraakherkenning en besluitvorming.
– Tekst-naar-video-generatie: Het proces van het genereren van video’s op basis van tekstuele prompts of beschrijvingen met behulp van AI-modellen.
– Red teamers: Individuen die software, applicaties of systemen grondig testen om kwetsbaarheden en zwakheden te identificeren.
– Deepfakes: Synthetische media waarbij de gelijkenis van een persoon wordt vervangen door de gelijkenis van iemand anders in een video, meestal met behulp van AI-technologie.
– Transformer-architectuur: Een type neurale netwerkarchitectuur dat vaak wordt gebruikt bij natuurlijke taalverwerkingstaken, waardoor het model relaties tussen woorden kan begrijpen en coherente resultaten kan genereren.
– Metadata: Gegevens die informatie verschaffen over andere gegevens. In de context van video’s kunnen metadata informatie bevatten over de bron, auteur, tijdstempel of authenticiteit van de video.
– Coalition for Content Provenance and Authenticity (C2PA): Een samenwerking tussen technologiebedrijven, waaronder OpenAI, die tot doel heeft standaarden en praktijken vast te stellen om de betrouwbaarheid van online content te waarborgen.

Gerelateerde links:
– OpenAI

The source of the article is from the blog aovotice.cz