OpenAI prezentē Sora: AI video ģenerators ar neredzētām spējām

OpenAI nesen iepazīstināja ar savu jaunāko inovāciju – jaunākās paaudzes mākslīgā intelekta (AI) modeli Sora. Šis pētnieciskais teksta uz video ģenerēšanas rīks spēj radīt 60 sekundes garus video, pārspējot savus konkurentus, ieskaitot “Lumiere” no Google.

Sora pašlaik ir pieejama “red teamers” un izredzētiem kiberdrošības ekspertiem, kuriem ir būtiska loma programmatūras rūpīgas pārbaudes veikšanā, lai uzlabotu tās kvalitāti. Papildus tam, dažiem satura veidotājiem ir piešķirts piekļuve šim vadošajam AI rīkam. OpenAI nākotnes plānos ietilpst “Coalition for Content Provenance and Authenticity” (C2PA) metadatu iekļaušana Sora, kad tā tiks izvietota kā oficiāls OpenAI produkts.

Pēc OpenAI paziņojuma, Sora spēj radīt augstas kvalitātes ainu ar sarežģītām kameru pārvietošanām, vairākiem tēliem un bagātīgi izteiksmīgām emocijām. Šī paplašinātā video ilguma spējas pārsniedz desmitkārtīgi daudz no tās galvenajiem konkurentiem. Runway AI un Pika 1.0 spēj radīt tikai 4 sekundes un 3 sekundes ilgas video attiecīgi, savukārt Google “Lumiere” panāk tikai 5 sekundes.

OpenAI ir dalījies ar vairākiem Sora radītiem video, kā arī ar pamudinājumiem, kas tika izmantoti to izveidei. Šie video izceļas ar izcilu detalizāciju un plūstošu kustību, atšķirībā no citiem tirgū pieejamiem video ģeneratoriem. Uzņēmums apgalvo, ka Sora spēj radīt sarežģītas ainas ar dažādiem tēliem, kameras leņķiem, konkrētiem kustību veidiem un precīziem objektu un fona detalizējumiem. Tas ir iespējams, pateicoties modeļa spējai saprast gan pamudinājumu, gan fizisko pasauli, ko tas ataino.

Sora darbojas kā disfūzijas modelis, kas izmanto transformeru arhitektūru, līdzīgi kā OpenAI GPT modeļi. Tā apstrādā un ģenerē datus uz patchiem, kas līdzīgi kā tekstā ģenerējošiem modeļiem satur saliktus video un attēlus. Ievērojami, Sora spēj pārveidot arī statiskus attēlus par dinamiskiem video.

Lai arī Sora lepojas ar iespaidīgajām iespējām, OpenAI atzīst, ka pašreizējam modelim ir noteiktas ierobežojums. Tā var cīnīties ar precīzām simulācijām sarežģītām fiziskām ainām un nesaprot konkrētas cēloņa un sekas saistības. OpenAI min piemēru, kurā persona nogriež kociņam gabaliņu, bet kociņš neuzrāda nekādas apskāviena zīmes.

OpenAI veic aktīvus pasākumus, lai novērstu Sora ļaunprātīgu izmantošanu, izveidojot kaitīgu saturu, piemēram, deepfakes. Uzņēmums izstrādā rīkus, lai atklātu maldinošu saturu, un plāno ieviest C2PA metadatus ģenerētajos video, sekojot šai praksei savā DALL-E 3 modelī. OpenAI arī sadarbojas ar “red teamers” un jomas ekspertiem, it īpaši ar tiem, kas specializējas dezinformācijā, naida saturā un tendenciozitātē, lai uzlabotu modeļa veiktspēju un risinātu potenciālas bažas.

Lai gan Sora pašlaik ir pieejama ierobežotai personu grupai, ieskaitot “red teamers”, vizuālos māksliniekus, dizainerus un filmu veidotājus, OpenAI aktīvi meklē atsauksmes, lai pilnveidotu un uzlabotu produktu. Jo šī inovatīvā tehnoloģija turpinās attīstīties, tā rada lielas cerības, lai revolucionizētu video satura radīšanas jomu.

Biežāk uzdotie jautājumi:

1. Kas ir Sora?
Sora ir OpenAI izstrādāts mākslīgā intelekta (AI) modelis. Tas ir teksta uz video ģenerēšanas rīks, kas spēj radīt līdz 60 sekundes garus video.

2. Kā Sora salīdzina ar savu konkurenci?
Sora pārspēj savus konkurentus, ieskaitot Google “Lumiere”, attiecībā uz video ilgumu. Kamēr Sora var radīt video līdz 60 sekundēm, “Lumiere” spēj izveidot tikai 5 sekundes ilgas video.

3. Kam pašlaik ir piekļuve Sora?
Sora ir pieejama “red teamers” (personām, kas rūpīgi testē programmatūru, lai atklātu tās ievainojamības) un izredzētiem kiberdrošības ekspertiem. Daži satura veidotāji arī ir saņēmuši piekļuvi šim AI rīkam.

4. Cik detalizēti un izteiksmīgi ir Sora radītie video?
Sora spēj radīt augstas kvalitātes ainas ar sarežģītām kameru pārvietošanām, vairākiem tēliem un bagātīgi izteiksmīgām emocijām. Tās paplašinātā video ilguma spējas pārsniedz tās konkurentu sniegumu.

5. Kā Sora darbojas?
Sora ir disfūzijas modelis, kas izmanto transformeru arhitektūru, līdzīgi kā OpenAI GPT modeļi. Tas apstrādā un ģenerē datus uz “patchiem”, kas līdzīgi kā tekstā ģenerējošiem modeļiem satur saliktus video un attēlus.

6. Kādas ir Sora ierobežojums?
Lai gan Sora ir iespaidīgas spējas, tai var būt grūtības precīzi simulēt sarežģītas fiziskas ainas un saprast konkrētas cēloņa un sekas saistības. OpenAI sniedz piemēru, kurā persona griež kociņam gabaliņu, bet kociņš neparāda nekādas apskāviena zīmes.

7. Kā OpenAI risina bažas saistībā ar Sora ļaunprātīgu izmantošanu?
OpenAI veic pasīvus pasākumus, lai novērstu Sora ļaunprātīgu izmantošanu, piemēram, kaitīga satura radīšanu, piemēram, deepfakes. Uzņēmums izstrādā rīkus, lai atklātu maldinošu saturu, un plāno ieviest metadatus no “Coalition for Content Provenance and Authenticity” (C2PA) ģenerētajos video.

8. Kas var sniegt atsauksmes par Sora?
Lai gan Sora pašlaik ir pieejama ierobežotai personu grupai, ieskaitot “red teamers”, vizuālos māksliniekus, dizainerus un filmu veidotājus, OpenAI aktīvi meklē atsauksmes no šiem lietotājiem, lai pilnveidotu un uzlabotu produktu.

Galvenie termini/jargoni:
– AI (Mākslīgā intelekts): Cilvēka intelekta imitēšana mašīnās, kas ir programmētas veikt uzdevumus, kas parasti prasa cilvēka inteliģenci, piemēram, vizuālo uztveri, runas atpazīšanu un lēmumu pieņemšanu.
– Teksta uz video ģenerēšana: Process, kura rezultātā tiek radīti video no teksta pamudinājumiem vai aprakstiem, izmantojot AI modeļus.
– “Red teamers”: Personas, kas rūpīgi testē programmatūru, lietojumprogrammas vai sistēmas, lai atklātu ievainojamības un vājības.
– Deepfakes: Sintētiskā multimedija, kurā vienas personas līdzīgumu aizstāj ar citu personas līdzīgumu videoklipā, parasti izmantojot AI tehnoloģijas.
– Transformeru arhitektūra: Veids, kāds neironu tīkla arhitektūra, ko bieži izmanto dabiskās valodas apstrādes uzdevumos, ļaujot modelim saprast attiecības starp vārdiem un radīt saskaņotas izvades.
– Metadati: Informācija par citiem datiem. Video kontekstā metadati var ietvert informāciju par avotu, autoru, laika zīmogu vai video autentiskumu.
– “

The source of the article is from the blog hashtagsroom.com