OpenAI pristato Sorą: naująją vaizdo generavimo dirvosūkio plotmę

OpenAI žengė reikšmingą žingsnį dirbtinio intelekto technologijų srityje, plėsdama savo veiklą į vaizdo generavimą. Įmonė atskleidė naujausią modelį – Sorą, kuris leidžia naudotojams įvesti norimą sceną ir paversti ją į aukštos raiškos vaizdo klipą. Šis žengimas, kurį padarė dirbtinio intelekto pagaminti vaizdo įrašai, atveda įdomių kūrybinių galimybių, tačiau taip pat kelia susirūpinimą dezinformacija, ypač svarbiausių pasaulio rinkimų metu.

Sora, vadinama generatyvine dirbtinio intelekto modeliu, veikia panašiai kaip OpenAI vaizdo generavimo įrankis DALL-E. Naudotojai įveda norimą sceną, o Sora sugeneruoja atitinkamą vaizdo klipą, kuris apima galimybę kurti video, įkvėptus nuotraukų, arba išplėsti jau esamus vaizdo įrašus. Šis proveržis išplečia generatyvinio dirbtinio intelekto taikymo sritį, kuris anksčiau buvo susijęs tik su pokalbių robotais ir vaizdo kūrėjais, ir atsiveria kelią vaizdo pagrindu paremtoms vartotojų ir verslo konteksto programoms.

Tuo pačiu pritariant vaizdo generavimo dirbtiniam intelektui, svarbu pripažinti šio tyrimo iššūkius. Dezinformacija yra didėjantis rūpestis, ypač vykstant svarbiems politiniams renginiams visame pasaulyje. Remiantis „Clarity“ duomenimis, per metus sukurtų dirbtinio intelekto „deepfake” vaizdo įrašų skaičius išaugo net 900%. Kai OpenAI įsijungia į video erdvę su Sorą, kitos įmonės, tokios kaip „Meta“ ir „Google“, taip pat kuria panašius įrankius, kaip antai Lumiere.

OpenAI tikisi, kad multimodalumas, t. y. teksto, vaizdo ir vaizdo generavimo derinys, taps pagrindine jo dirbtinio intelekto modelių grupės savybe. Kombinuodama daugybę komunikavimo formų, svečioji įmonė bando pasiūlyti visapusius ir galingus dirbtinio intelekto sprendimus. Pasak OpenAI operacijų vykdomojo direktoriaus Brado Lightcapo, vien tik tekstas ir kodas yra nepakankamos komunikavimo formos, kad būtų galima visapusiškai išnaudoti dirbtinio intelekto modelių galimybes.

Kol kas Sorą galėjo naudoti tik išrinkta saugumo bandymo grupė. OpenAI viešai nepateikė daugiau nei dešimt Savų nuotraukų. Tačiau planuojama paskelbti techninę publikaciją. Kalbant apie susijusius pavojus, OpenAI dirba ties „aptikimo klasifikatoriumi”, kad nustatytų Soros sukurtus video klipus ir ketina įtraukti metaduomenis į išvestį, kad būtų galima atskirti dirbtinio intelekto pagamintą turinį.

OpenAI Sorą reprezentuoja proveržį vaizdo generavimo dirbtinio intelekto srityje, siūlydama naują kūrybos ir inovacijų erdvę. Tačiau, kaip ir su bet kokia technologine pažanga, svarbu atsakingai keliauti iššūkių sąvartynu, siekiant mažinti dezinformacijos riziką nuolat tobulėjančiame multimedijos pasaulyje.

Dažniausiai užduodami klausimai:

K: Kas yra Sora?
A: Sora – tai OpenAI sukurtas generatyvinis dirbtinio intelekto modelis, leidžiantis naudotojams įvesti norimą sceną ir paversti ją į aukštos raiškos vaizdo klipą.

K: Kaip veikia Sora?
A: Naudotojai įveda norimą sceną, o Sora generuoja atitinkamą vaizdo klipą. Ji gali kurti vaizdo klipus, įkvėptus nuotraukų, arba išplėsti jau esamus vaizdo įrašus.

K: Kokia yra Sora svarba?
A: Sora išplečia generatyvinį dirbtinio intelekto taikymą – po siūlėjų ir vaizdo kūrėjų, atveria kelią vaizdo pagrindu paremtoms vartotojų ir verslo konteksto programoms.

K: Kokius rūpesčius kelia vaizdo generavimo dirbtinis intelektas?
A: Dezinformacija tampa didėjančiu rūpesčiu, ypač svarbiausiose politinio renginio metu. Padidėjęs dirbtinio intelekto pagamintų „deepfake” vaizdo klipų skaičius kelia rūpesčių dėl klaidingos informacijos plitimo.

K: Kaip OpenAI sprendžia dezinformacijos susirūpinimus?
A: OpenAI dirba ties „aptikimo klasifikatoriumi”, kuris padeda nustatyti, ar vaizdo klipai buvo sukurti Soros pagalba, ir planuoja įtraukti metaduomenis į išvestį, padedančius atskirti dirbtinio intelekto pagaminį turinį.

K: Ar Sora yra viešai prieinama?
A: Kol kas Sora teikiamas tik išrinktai saugumo bandymų grupei. OpenAI nepublikavo kitų modelio demonstracijų, tačiau planuoja išleisti techninį straipsnį.

Apibrėžimai:

– Generatyvinis dirbtinio intelekto modelis: dirbtinio intelekto modelis, kuris gali generuoti naują turinį, tokį kaip tekstas, nuotraukos arba vaizdo klipai, remiantis įvestimi arba mokymu iš esamų duomenų.
– „Deepfake”: dirbtinio intelekto pagami vaizdo klipai, kuriuose manipuliuojamas arba pakeičiamas asmens panašumas esančiame vaizdo įraše, dažnai siekiant plisti klaidingai informacijai arba sukurti klaidinančią turinį.
– Multimodalumas: daugybės komunikavimo formų, tokios kaip tekstas, nuotrauka ir vaizdo įrašas, integravimas į dirbtinio intelekto modelius, siekiant suteikti išsamesnius ir galingesnius sprendimus.

Siūlomi susiję nuorodų žymėjimai:

– OpenAI
– Meta
– Google

The source of the article is from the blog oinegro.com.br