Kontroliranje putanja objekata u sintetiziranim video zapisima postaje lakše

Tim istraživača u NVIDIA istraživanju predstavio je inovativno rješenje za generiranje video zapisa na temelju tekstualnih uputa, omogućujući korisnicima kontrolu putanje i ponašanja objekata u sintetiziranim video zapisima. Ovaj revolucionarni pristup pruža korisnicima visokorazinski sučelje putem kojeg mogu odrediti poziciju objekta na različitim točkama u videu pomoću obuhvatnih okvira (bounding box) i odgovarajućih tekstualnih uputa.

Uređivanjem prostornih i temporalnih “attention” mapa tijekom početnih koraka denoising difuzije, korisnici mogu koncentrirati aktivaciju na željenom mjestu objekta. Važno je napomenuti da ovaj pristup ne ometa naučenu povezanost teksta i slike te zahtijeva minimalne izmjene koda.

Jedna od ključnih značajki ovog novog pristupa je mogućnost dodavanja ključnih okvira (keyframes) bounding box-a, što korisnicima omogućuje kontrolu veličine i perspektivnih efekata objekta. Također, dodavanje ključnih okvira tekstualnim uputama omogućuje korisnicima utjecaj na ponašanje subjekta u sintetiziranom videu.

Ovaj intuitivni pristup nudi casual korisnicima alat za jednostavno pripovijedanje video zapisa koji omogućuje modificiranje trajektorije i ponašanja subjekta tijekom vremena. Integriranjem sintetiziranog subjekta u određeno okruženje korisnici mogu stvarati prirodne rezultate, uključujući perspektivne efekte, točno kretanje objekata i interakcije između objekata i njihove okoline.

Najbolji dio je što je ovaj pristup računalno učinkovit i ne zahtijeva fino podešavanje modela, trening ili online optimizaciju. Korištenjem snage underlying diffusion modela, proizvodi visokokvalitetne rezultate s minimalnim naporom od strane korisnika.

Iako ovaj pristup donosi značajna unaprijeđenja u kontroli putanja objekata u sintetiziranim video zapisima, još uvijek postoje izazovi, poput teškoća u generiranju točnih atributa za više objekata ili deformirane objekte. Međutim, istraživači nastavljaju raditi na usavršavanju metode kako bi prevladali ove ograničenja i poboljšali korisničko iskustvo.

Ovo istraživanje predstavlja velike mogućnosti u generiranju video zapisa, omogućujući casual korisnicima stvaranje dinamičnih i privlačnih videa s lakoćom. Detaljnije informacije o ovom istraživanju možete pronaći u radu i projektu istraživača u NVIDIA istraživanju.

The source of the article is from the blog revistatenerife.com