Nástroj Sora od spoločnosti OpenAI: Nový generátor videí s revolučnými schopnosťami

OpenAI nedávno predstavilo ich najnovšiu inováciu, cutting-edge umelej inteligencie (AI) model s názvom Sora. Tento pioniersky nástroj na generovanie textu do videa má pozoruhodnú schopnosť vytvárať videá dlhé až 60 sekúnd. Toto prevyšuje schopnosti jeho konkurentov, vrátane Lumiere od Google.

Sora je momentálne prístupná pre red teamy a vybraných expertov z kybernetickej bezpečnosti, ktorí zohrávajú kľúčovú úlohu pri dôkladnom testovaní softvéru na zlepšenie jeho kvality. Okrem toho boli niektorým tvorcom obsahu tiež udelené práva na používanie tohto revolučného nástroja AI. Budúce plány spoločnosti OpenAI zahŕňajú začlenenie metadát Coalície pre dôkazovanie pôvodu a autenticity obsahu (C2PA) do Sory, keď bude nasadená ako oficiálny produkt spoločnosti OpenAI.

Podľa oznámenia spoločnosti OpenAI má Sora silu generovať veľmi detailné scény s komplexnými pohybmi kamery, viacerými postavami a bohatými emočnými prejavmi. Dĺžka týchto videí prekračuje desať násobok dĺžku videí jeho významných súperov. Runway AI a Pika 1.0 môžu generovať videá, ktoré sú len 4 a 3 sekundy dlhé, zatiaľ čo Lumiere od Google zaostáva iba s 5 sekundami.

OpenAI zdieľala viacero videí vytvorených pomocou Sory, spolu s podnety, ktoré boli použité na ich vytvorenie. Tieto videá preukazujú výnimočné úrovne detailov a plynulých pohybov, čím sa odlišujú od iných nástrojov na generovanie videí dostupných na trhu. Spoločnosť tvrdí, že Sora dokáže generovať zložité scény s rôznymi postavami, kamerovými uhlami, konkrétnymi typmi pohybu a presnými detailmi o predmete a pozadí. Toto je umožnené schopnosťou modelu porozumieť jednak podnetu a jednak fyzickému svetu, ktorý predstavuje.

Sora funguje ako difúzny model, ktorý využíva architektúru transformátorov podobnú modelom GPT od spoločnosti OpenAI. Dáta, ktoré spracúva a generuje, sú rozdelené do záplatov, podobne ako tokeny v modeloch na generovanie textu. Tieto záplaty sa skladajú z balených videí a obrázkov, čo umožňuje spoločnosti OpenAI trénovať model generovania videí v rôznych dĺžkach, rozlíšeniach a pomeroch strán. Treba poznamenať, že Sora dokáže tiež transformovať statické obrázky do dynamických videí.

Aj keď Sora má impozantné schopnosti, OpenAI uznáva, že súčasný model má isté obmedzenia. Môže mať problémy s presným simulovaním zložitých fyzických scén a nemusí pochopiť konkrétne príčinné a následné vzťahy. OpenAI uvádza príklad, keď osoba odhrýza kúsok koláča, ale koláč nezobrazuje žiadne odhrnuté stopy.

OpenAI prijíma preventívne opatrenia na zabránenie zneužívania Sory na vytváranie škodlivého obsahu, ako sú deepfakes. Spoločnosť vyvíja nástroje na detekciu zavádzajúceho obsahu a plánuje implementovať metadáta C2PA do vygenerovaných videí, nasledujúc úspešné prijatie tejto praxe v ich modeli DALL-E 3. OpenAI tiež spolupracuje s red teammi a odborníkmi v danej oblasti, najmä s tými špecializujúcimi sa na dezinformácie, znevážujúci obsah a predsudky, aby vylepšili výkon modelu a adresovali potenciálne obavy.

Aj keď je Sora momentálne prístupná len obmedzenej skupine jednotlivcov vrátane red teamov, vizuálnych umelcov, dizajnérov a filmárov, OpenAI aktívne hľadá spätnú väzbu na zlepšenie produktu. Táto inovatívna technológia má veľký potenciál zmeniť oblasť tvorby video obsahu.

The source of the article is from the blog elperiodicodearanjuez.es