OpenAI julkaisee Sora: ennennäkemättömän tehokkaan tekoälyvideogeneraattorin

OpenAI on äskettäin esitellyt uusimman innovaationsa, huippuluokan tekoälymallin nimeltä Sora. Tämä uraauurtava tekstistä videoiksi -generaattori pystyy luomaan videoita, jotka ovat jopa 60 sekuntia pitkiä. Tämä ylittää kilpailijoidensa, kuten Googlen Lumiere-sovelluksen, kyvyt.

Sora on tällä hetkellä saatavilla niin sanotuille red teamereille ja valikoiduille kyberturvallisuuden asiantuntijoille, jotka ovat avainasemassa ohjelmiston perusteellisessa testauksessa sen laadun parantamiseksi. Lisäksi joillekin sisällönluojille on myönnetty pääsy tähän mullistavaan tekoälytyökaluun. OpenAI:n tulevaisuudensuunnitelmiin kuuluu Coalition for Content Provenance and Authenticity (C2PA) -metadatan sisällyttäminen Soraan sen ollessa virallinen OpenAI-tuote.

OpenAI:n ilmoituksen mukaan Sora pystyy luomaan erittäin yksityiskohtaisia kohtauksia monimutkaisilla kameran liikkeillä, useilla hahmoilla ja rikkailla tunteenilmauksilla. Tämä pidempi videoiden kesto on yli kymmenkertainen verrattuna merkittävimpiin kilpailijoihinsa. Runway AI ja Pika 1.0 pystyvät luomaan vain 4 ja 3 sekunnin mittaisia videoita, kun taas Googlen Lumiere jää vain 5 sekuntiin.

OpenAI on jakanut useita Sora:lla tuotettuja videoita yhdessä niiden luomiseen käytettyjen ohjeiden kanssa. Nämä videot ovat poikkeuksellisen yksityiskohtaisia ja niissä on saumaton liike, mikä erottaa ne muista markkinoilla saatavilla olevista videogeneraattoreista. Yhtiö väittää, että Sora pystyy luomaan monimutkaisia kohtauksia eri hahmoilla, kameran kulmilla, tarkoituksenmukaisilla liikkeen tyypeillä sekä tarkkoilla aiheeseen ja taustatietoihin liittyvillä yksityiskohdilla. Tämä on mahdollista mallin kyvyllä ymmärtää sekä ohje että fyysinen maailma, jota se edustaa.

Sora toimii diffuusiomallina käyttäen transformer-arkkitehtuuria, samankaltaisena kuin OpenAI:n GPT-mallit. Se käsittelee ja generoi dataa laastareina, jotka ovat samankaltaisia kuin tekstiä generoivissa malleissa käytetyt sanat. Nämä laastarit koostuvat niputetuista videoista ja kuvista, mikä mahdollistaa OpenAI:lle videogeneraatiomallin kouluttamisen eri kestoilla, resoluutioilla ja kuvasuhteilla. Huomattavasti Sora pystyy myös muuttamaan staattiset kuvat dynaamisiksi videoiksi.

Vaikka Sora ylpeilee vaikuttavilla kyvyillään, OpenAI tunnistaa, että nykyisellä mallilla on tietyt rajoitukset. Se voi kamppailla tarkasti simuloimaan monimutkaisia fyysisiä kohtauksia ja ei välttämättä ymmärrä tiettyjä syy-seuraussuhteita. OpenAI käyttää esimerkkinä tilannetta, jossa henkilö ottaa suupalan keksistä, mutta keksissä ei näy puraisunjälkiä.

OpenAI ryhtyy ennaltaehkäiseviin toimiin estääkseen Soran väärinkäyttöä haitallisen sisällön, kuten syväfakejen, luomisessa. Yhtiö kehittää työkaluja harhaanjohtavan sisällön havaitsemiseksi ja aikoo implementoida Coalition for Content Provenance and Authenticity (C2PA) -metadatan luotuihin videoihin, mikäli käytäntö onnistuu heidän DALL-E 3 -mallinsa tapaan. OpenAI tekee myös yhteistyötä red teamereiden ja erityisesti väärien tietojen, vihamielisen sisällön ja vinouman asiantuntijoiden kanssa parantaakseen mallin suorituskykyä ja käsitelläkseen mahdollisia huolenaiheita.

Vaikka Sora on tällä hetkellä saatavana rajoitetulle ryhmälle henkilöitä, mukaan lukien red teamerit, visuaaliset taiteilijat, suunnittelijat ja elokuvantekijät, OpenAI etsii aktiivisesti palautetta tuotteen hiomiseksi ja parantamiseksi. Tämä innovatiivinen teknologia pitää suurta lupausta videoiden luomisen alalla.

UKK-osio:

1. Mikä on Sora?
Sora on OpenAI:n kehittämä tekoälymalli. Se on huippuluokan tekstistä videoiksi -generaattori, joka pystyy luomaan jopa 60 sekuntia pitkiä videoita.

2. Kuinka Sora vertautuu kilpailijoihinsa?
Sora ylittää kilpailijansa, kuten Googlen Lumiere-sovelluksen, videoiden keston suhteen. Kun Sora pystyy luomaan videoita jopa 60 sekuntia pitkinä, Lumiere pystyy vain luomaan videoita, jotka ovat enintään 5 sekuntia pitkiä.

3. Kenellä on tällä hetkellä pääsy Soraan?
Sora on saatavilla red teamereille (ihmiset, jotka testaavat ohjelmistoja haavoittuvuuksien löytämiseksi) ja valikoiduille kyberturvallisuuden asiantuntijoille. Joillekin sisällönluojille on myös myönnetty pääsy tähän tekoälytyökaluun.

4. Kuinka yksityiskohtaisia ja ilmaisuvoimaisia Sora:n luomat videot ovat?
Sora pystyy luomaan erittäin yksityiskohtaisia kohtauksia monimutkaisilla kameran liikkeillä, useilla hahmoilla ja rikkailla tunteenilmauksilla. Sen pidempi videoiden kesto ylittää kilpailijoiden kyvyt.

5. Kuinka Sora toimii?
Sora on diffuusiomalli, joka käyttää transformer-arkkitehtuuria, samankaltaisena kuin OpenAI:n GPT-mallit. Se käsittelee ja generoi dataa laastereina, jotka ovat samankaltaisia kuin tekstiä generoivissa malleissa käytetyt sanat, ja koostuvat niputetuista videoista ja kuvista.

6. Mitä rajoituksia Soralla on?
Vaikka Sora on vaikuttavaan kyvyillään, sillä voi olla vaikeuksia tarkan fyysisen kohtauksen simuloinnissa ja tiettyjen syy-seuraussuhteiden ymmärtämisessä. OpenAI esittää esimerkkinä tilanteen, jossa henkilö ottaa suupalan keksistä, mutta keksissä ei näy puraisunjälkiä.

7. Miten OpenAI käsittelee huolenaiheita Soran väärinkäytön suhteen?
OpenAI toteuttaa ennakoivia toimia estääkseen Soran väärinkäyttöä, kuten haitallisen sisällön luomista, kuten syväfakeja. Yhtiö kehittää työkaluja harhaanjohtavan sisällön havaitsemiseksi ja aikoo implementoida Coalition for Content Provenance and Authenticity (C2PA) -metadatan luotuihin videoihin.

8. Kuka voi antaa palautetta Sorasta?
Vaikka Sora on nyt saatavilla rajoitetulle ryhmälle, mukaan lukien red teamerit, visuaaliset taiteilijat, suunnittelijat ja elokuvantekijät, OpenAI etsii aktiivisesti palautetta näiltä käyttäjiltä tuotteen hiomiseksi ja parantamiseksi.

Avainsanat / jargon:
– Tekoäly (AI): Ihmisen älyn simuloimista koneille, jotka on ohjelmoitu suorittamaan tehtäviä, jotka yleensä vaativat ihmisen älyä, kuten visuaalinen havaitseminen, puheen tunnistus ja päätöksenteko.
– Tekstistä videoiksi -generaatio: Prosessi, jossa käytetään tekoälymalleja luomaan videoita tekstipohjaisten ohjeiden tai kuvauksien perusteella.
– Red teamerit: Henkilöt, jotka testaavat ohjelmistoja, sovelluksia tai järjestelmiä tunnistaakseen haavoittuvuuksia ja heikkouksia.
– Syväfake: Synteettinen media, jossa henkilön ulkonäkö korvataan jonkun toisen ulkonäöllä videolla, yleensä tekoälytekniikkaa käyttäen.
– Transformer-arkkitehtuuri: Tyyppi neuroverkkoarkkitehtuuria, jota käytetään yleisesti luonnollisen kielen käsittelytehtävissä mahdollistaen mallin ymmärtämään sanojen välistä suhdetta ja tuottamaan koherentteja tuloksia.
– Metadata: Dataa, joka antaa tietoa muusta datasta. Videoiden kontekstissa metadata voi sisältää tietoa videon lähteestä, tekijästä, ajankohdasta tai aitoudesta.
– Coalition for Content Provenance and Authenticity (C2PA): Teknologiayritysten, mukaan lukien OpenAI:n, yhteistyö, jonka tavoitteena on luoda standardeja ja käytäntöjä varmistaakseen verkkosisällön luotettavuuden.

Liittyvät linkit:
– OpenAI

The source of the article is from the blog procarsrl.com.ar