Naslov

OpenAI predstavi Soro: AI video generator z izjemnimi sposobnostmi

OpenAI je nedavno predstavil svoj najnovejši inovacijo, vrhunski model umetne inteligence (AI) imenovan Sora. Ta inovativno orodje za pretvorbo besedila v video ima izjemno sposobnost ustvarjanja videoposnetkov, dolgih do 60 sekund. To presega sposobnosti konkurentov, vključno z Lumiere iz Googla.

Sora je trenutno dostopna rdečim ekipam in izbranim strokovnjakom za kibernetsko varnost, ki igrajo ključno vlogo pri temeljitem testiranju programske opreme za izboljšanje kakovosti. Poleg tega so nekateri ustvarjalci vsebine pridobili dostop do tega inovativnega orodja AI. OpenAI ima v načrtu vključitev metapodatkov Koalicije za dokazovanje in avtentičnost vsebine (C2PA) v Soro, ko bo ta uradno predstavljena kot produkt OpenAI.

Po OpenAI-jevem obvestilu ima Sora moč ustvarjati zelo podrobne prizore s kompleksnimi gibi kamere, več znaki in bogatimi izrazi čustev. Ta podaljšana dolžina videoposnetkov je več kot desetkrat večja od njenih znanih tekmecov. Runway AI in Pika 1.0 lahko ustvarita videoposnetke dolge le 4 oz. 3 sekunde, medtem ko Lumiere Googla zaostaja s samo 5 sekundami.

OpenAI je delil več videoposnetkov, ustvarjenih s Soro, skupaj s povodci, ki so bili uporabljeni za njihovo ustvarjanje. Ti videoposnetki kažejo izjemne podrobnosti in brezhibno gibanje, kar jih ločuje od drugih video generatorjev, ki so na voljo na trgu. Podjetje trdi, da Sora lahko ustvari zapletene prizore z različnimi liki, kamerami, specifičnimi vrstami gibanja ter natančnimi podrobnostmi subjekta in ozadja. To je omogočeno s sposobnostjo modela, da razume tako povode kot fizični svet, ki ga predstavlja.

Sora deluje kot difuzni model, ki uporablja arhitekturo transformatorja, podobno modelom GPT OpenAI. Podatke, ki jih obdeluje in ustvarja, razdeli na obližje, podobno žetonu v modelih za ustvarjanje besedila. Ta obližja vključujejo zbrane videoposnetke in slike, kar OpenAI omogoča usposabljanje modela za generiranje videoposnetka pri različnih dolžinah, ločljivosti in razmerjih stranic. Zlasti Sora lahko tudi pretvori nepremične slike v dinamične videoposnetke.

Čeprav Sora ponaša z impresivnimi sposobnostmi, OpenAI priznava, da ima sedanji model določene omejitve. Morda se bo težko natančno simuliral kompleksne fizične prizore in razumel specifične vzročno-posledične odnose. OpenAI uporablja primer osebe, ki vzame ugriz iz piškota, vendar piškot ne pokaže nobenih ugrizov.

OpenAI sprejema proaktivne ukrepe za preprečevanje zlorabe Sore pri ustvarjanju škodljive vsebine, kot so deepfake. Podjetje razvija orodja za odkrivanje zavajajoče vsebine in namerava v generirane videoposnetke vključiti metapodatke C2PA, potem ko je ta praksa uspešno sprejeta pri njihovem modelu DALL-E 3. OpenAI prav tako sodeluje z rdečimi ekipami in strokovnjaki za področje, zlasti tistimi, ki so specializirani za dezinformacije, sovražno vsebino in pristranskost, da izboljšajo delovanje modela in obravnavajo morebitne skrbi.

Čeprav je Sora trenutno dostopna omejeni skupini posameznikov, vključno z rdečimi ekipami, vizualnimi umetniki, oblikovalci in filmskimi ustvarjalci, OpenAI aktivno išče povratne informacije za izboljšanje izdelka. S to inovativno tehnologijo, ki še naprej napreduje, obeta revolucioniranje področja ustvarjanja video vsebin.

The source of the article is from the blog krama.net