AI-Generuotų vaizdo įrašų ateitis: Įveikiant ribas ir tyrinėjant naujus požiūrius

Išleidus „OpenAI Sora“, buvo sukeltas tiek susijaudinimas, tiek nerimas įvairiose srityse, įskaitant mokslą, meną ir politiką. Nors vaizdo įrašai, sukurti „Sora“, be abejo, yra įspūdingi lyginant su ankstesniais dirbtinio intelekto sugeneruotais vaizdo įrašais, vis dar yra fundamentalių trūkumų, kuriuos reikia pašalinti prieš technologiją galima efektyviai naudoti gamyboje.

Deja, „OpenAI“ nepateikė išsamią informaciją apie modelius, kurie valdo „Sora“. Tačiau žinoma, kad „Sora“ naudoja difuzijos ir transformerio architektūras ir buvo išlavinta masiškai dėl „OpenAI“ išsamių skaičiavimo ir duomenų išteklių. Nepaisant to, tarp tyrėjų buvo šiek tiek žaidžiama, vienas iš jų pažymėjo, jog „OpenAI“ naudojo kitų atvirą tyrimą, nesidalindama savo.

Nors „Sora“ rodo pastebimai gerus rezultatus, jis vis dar demonstruoja požymius ir artefaktus, atskleidžiančius jo nesusipratimą apie pasaulį. Nors jis puikiai sugeba užfiksuoti detales atskirose scenose ir objektuose, jis dažnai pažeidžia fizikos ir priežasties bei pasekmės pagrindinius principus. Objektai gali staiga atsirasti, mastelis gali būti neteisingas, o skirtingi objektai gali būti sumaišyti. Galūnės simuliacijos yra ypatingai problemiškos, su kojomis ir rankomis lenkiantis netaisyklingais būdais. Be to, modelis sunkiai susidoroja su tikslia scenų ir erdvės detalių simuliacija.

Vienas būdas išspręsti šias problemas yra išplėsti modelius tolimesniu mastu, kaip matyti su ankstesniais transformerio pagrindu paremtais modeliais. Tačiau šis variantas yra brangus ir prieinamas tik įmonėms, turinčioms reikšmingų finansinių ir skaičiavimo išteklių. Alternatyvūs būdai yra tyrinėti skirtingus mokymo metodus ir technikas, kad būtų pagerintas esamas modelis. Pavyzdžiui, kaip tai padaryta su GPT-4, grindžiantis GPT-3 per pastiprinamąjį mokymąsi iš žmonių grįžtamųjų ryšių ir geresnių mokymo duomenų. „OpenAI“ „Sora“ ataskaitoje akcentuojama sintetinių duomenų naudojimas anotuojant mokymo pavyzdžius, taktiką, kuri gali būti dar labiau išplečiama papildomais ištekliais.

Vienas iš galimų sprendimų yra pertvarkyti generatyvius modelius arba juos sujungti su kitais sistemomis siekiant gauti tiksliausius rezultatus. Pavyzdžiui, „Sora“ išvestį galima perduoti į neuroninį spindulio lauką (NeRF), kad būtų sugeneruotas vaizdo 3D žemėlapis, kuris vėliau būtų išbaigtas naudojant fizikos simuliaciją, tokią kaip „Unreal Engine“. Kiti generatyvūs modeliai, pvz., „StyleGAN“, taip pat gali būti naudojami keičiant apšvietimą, stilių ir kitus galutinio rezultato aspektus.

Išvada: nors „OpenAI Sora“ pristato peržengiamus pažangius dirbtinio intelekto sugeneruotų vaizdo įrašų žingsnius, vis dar yra reikšmingų iššūkių, kuriems reikia įveikti. Ištyrus skirtingus požiūrius, pasitelkus pažangias mokymo technikas ir sujungiant modelius su kitomis sistemomis, galimybė pasiekti tikrai realistiškus ir tiksliausius dirbtinio intelekto sugeneruotus vaizdo įrašus gali būti įgyvendinta. Tai yra įdomus laikas šiai sričiai, su begaline inovacijų ir prasiveržimų galimybe ateityje.

The source of the article is from the blog krama.net