OpenAI pristato Sorą: sinematografinę dirbtinės intelekto (AI) vaizdų generavimo technologiją su niekada anksčiau nepasiektomis galimybėmis

OpenAI neseniai pristatė savo naujausią inovaciją – naujovišką dirbtinės intelekto (AI) modelį, vadinamą Sorą. Šis pionierinės tekstas-vaizdas generavimo įrankis turi nepaprastą gebėjimą kurti iki 60 sekundžių trunkančius vaizdo įrašus. Tai pranoksta jo konkurentų, įskaitant „Lumiere” iš Google, galimybes.

Sora šiuo metu naudojama red teamui ir atrankiniams saugumo ekspertams, kurie atlieka svarbų vaidmenį kruopščiai testuodami programinę įrangą, siekdami pagerinti jos kokybę. Be to, kai kurie turinio kūrėjai taip pat gavo priėjimą prie šios esminės AI priemonės. OpenAI ateityje planuoja įtraukti Coalition for Content Provenance and Authenticity (C2PA) metaduomenis į Sorą, kai ji bus išleista kaip oficiali OpenAI produkto dalis.

Pagal OpenAI pranešimą, Sora turi galimybę generuoti labai išsamius vaizdo kadrus su kompleksiniais kameros judesiais, keliomis veikėjais ir gausiai ekspresyviais jausmais. Šis pratęstas vaizdo trukmė yra daugiau nei dešimt kartų ilgesnė nei išsiskiriančių konkurentų. Runway AI ir Pika 1.0 gali generuoti tik 4 ir 3 sekundų trukmės vaizdo įrašus atitinkamai, tuo tarpu „Lumiere” iš Google trunka tik 5 sekundes.

OpenAI pasidalino keletu Soros sukurtų vaizdų, kartu su naudotomis užklausomis. Šie vaizdai išsiskiria išskirtiniu detalumo lygiu ir sklandžiu judesiu, išryškinančiu juos iš kitų rinkoje esančių vaizdo generatorių. Kompanija teigia, kad Sora gali generuoti sudėtingus kadrus su įvairiais veikėjais, kameros kampais, konkretaus tipo judesiais ir tiksliais objekto ir fono detalėmis. Tai įmanoma, nes modelis sugeba suprasti tiek užklausą, tiek fizinį pasaulį, kurį ji atspindi.

Sora veikia kaip difuzijos modelis, naudojantis transformacinę architektūrą, panašią į OpenAI GPT modelius. Jis apdoroja ir generuoja duomenis skirtingais laikotarpiais, raiškomis ir vaizdo proporcijomis suskaidytuose ruožuose, panašiai kaip tekstą generuojantys modeliai naudoja ženklų grupei. Šie ruožai sudaro susietus vaizdo įrašus ir paveikslėlius, leidžiant OpenAI apmokyti vaizdo generavimo modelį atsižvelgiant į skirtingas trukmes, raiškas ir vaizdo kompozicijas. Nepaprastai, Sora taip pat gali paversti statinius vaizdus dinaminiais vaizdo įrašais.

Nors Sora pasižymi įspūdingomis galimybėmis, OpenAI pripažįsta, kad šiuo metu modelis turi tam tikrų apribojimų. Jam gali būti sudėtinga tiksliai imituoti sudėtingus fizinio pasaulio vaizdus ir nesuprasti tam tikrų priežasties ir pasekmės sąryšių. OpenAI pateikia pavyzdį, kai žmogus atsiduoda į kukurūzų gabaliuką, bet sausainis nerodo jokių prarytų gabalėlių.

OpenAI taiko proaktyvius veiksmus, norėdama užkirsti kelią Soros neteisėtam naudojimui, pvz., kenksmingo turinio, tokių kaip deepfake, kurimui. Kompnaija kurią įrankius aptiktų apgaulingą turinį ir planuoja įgyvendinti C2PA metaduomenis sukurtuose vaizdo įrašuose, remdamasi sėkmingu šios praktikos taikymu savo modelyje DALL-E 3. OpenAI taip pat bendradarbiauja su red teamers ir srities ekspertais, ypač su tais, kurie specializuojasi dezinformacijoje, neapykantos turinyje ir prietarose, siekdama pagerinti modelio veikimą ir išspręsti galimus rūpesčius.

Nors Sora šiuo metu prieinama ribotam asmenų grupei, įskaitant red teamerius, vaizdų menininkus, dizainerius ir filmų kūrėjus, OpenAI aktyviai ieško grįžtamųjų ryšių, siekdama padaryti produktą tobulesnį ir pagerinti jį. Kaip ši novatoriška technologija toliau vystosi, ji žada iš esmės revoliucionuoti vaizdo turinio kūrimo sritį.

DUK skyrius:

1. Kas yra Sora?
Sora yra OpenAI sukurtas dirbtinės intelekto (AI) modelis. Tai yra naujoviškas tekstas-vaizdas generavimo įrankis, kuris gali sukurti iki 60 sekundžių trunkančius vaizdo įrašus.

2. Kaip Sora palyginama su konkurentais?
Sora pranoksta konkurentus, įskaitant „Lumiere” iš Google, kai kalbama apie vaizdo trukmę. Sora gali generuoti iki 60 sekundžių trukmės vaizdo įrašus, o „Lumiere” gali kurti tik 5 sekundžių trukmės įrašus.

3. Kas šiuo metu turi priėjimą prie Soros?
Sora yra prieinama red teamui (asmens, kuris kruopščiai testuoja programinę įrangą, paieškai), kintamiesiems saugumo ekspertams. Kai kurie turinio kūrėjai taip pat gavo priėjimą prie šio AI įrankio.

4. Koks detalumas ir ekspresyvumas turi Sora sukurti vaizdai?
Sora turi galimybę generuoti labai išsamius vaizdo kadrus su sudėtingais kameros judesiais, keliais veikėjais ir gausiai ekspresyviais jausmais. Ilgesnė vaizdo trukmė viršija konkurentus.

5. Kaip veikia Sora?
Sora yra difuzijos modelis, kuris naudoja transformacinę architektūrą, panašią į OpenAI GPT modelius. Jis apdoroja ir generuoja duomenis ruožais, panašiais į ženklus, modeliuojant tekstą generuojančius modelius, ir šie ruožai susideda iš susietų vaizdo įrašų ir paveikslėlių.

6. Kokie yra Sora apribojimai?
Nors Sora turi įspūdingų galimybių, ji gali turėti sunkumų tiksliai imituojant sudėtingus fizinio pasaulio vaizdus ir suprantant tam tikrus priežasčių ir pasekmių ryšius. OpenAI pateikia pavyzdį, kai žmogus atiduoda kąsnį iš sausainio, bet sausainis nerodo jokių pažymėtų kąsnio žymių.

7. Kaip OpenAI sprendžia susirūpinimą dėl Soros netinkamo naudojimo?
OpenAI imasi proaktyvių priemonių, siekdamas užkirsti kelią Sora neteisėtam naudojimui, tokiu kaip kenksmingo turinio kūrimas, pvz., deepfake. Bendrovė kurią priemonėms apgaulingą turinį aptikti ir planuoja įgyvendinti iš Coaltion for Content Provenance and Authenticity(C2PA) metaduomenis generuojamuose vaizdo įrašuose.

8. Kam Sora turėtų būti pateiktas grįžtamasis ryšys?
Nors Sora šiuo metu prieinama ribotam asmenų ratui, įskaitant red teamerius, vaizdų menininkus, dizainerius ir filmų kūrėjus, OpenAI aktyviai ieško grįžtamųjų ryšių iš šių vartotojų, siekiant tobulinti ir pagerinti produktą.

Raktiniai terminai/Jargonai:
– Dirbtinė intelektas (AI): žmonių intelekto imitavimas mašinose, kurios programuotos atlikti užduotis, kurios paprastai reikalauja žmogaus intelekto, tokių kaip vaizdo suvokimas, kalbos atpažinimas ir sprendimų priėmimas.
– Tekstas-vaizdas generavimas: procesas, kai naudojant AI modelius iš tekstini

The source of the article is from the blog motopaddock.nl