Ovládanie trajektórií objektov v syntetizovaných videách je jednoduchšie

Výskumníci z NVIDIA Research predstavili prielomovú metódu generovania videí na základe textových popisov, ktorá umožňuje užívateľom ovládať trajektóriu a správanie objektov vo vygenerovaných videách. Tento inovatívny prístup poskytuje užívateľom rozhranie na vysokej úrovni, pomocou ktorého môžu určiť polohu objektu v rôznych časových bodoch videa pomocou ohraničujúcich rámcov (bboxes) a príslušných textových popisov.

Úpravou priestorových a časových pozornostných máp počas počiatočných krokov difúzie šumu môžu užívatelia sústrediť aktiváciu na želané miesto objektu. Dôležitým je, že tento prístup nemení naučenú asociáciu textu a obrazu a nevyžaduje minimálne úpravy kódu.

Jednou z kľúčových vlastností tejto novej metódy je možnosť vytvárania klúčových snímkov ohraničujúceho rámovania, ktoré umožňujú užívateľom ovládať veľkosť a perspektívne efekty objektu. Okrem toho umožňuje nastavovanie klúčových snímkov aj pri textovom popise, čo ovplyvňuje správanie subjektu vo vygenerovanom videu.

Tento intuitívny prístup ponúka bežným užívateľom nástroj na plynulé vyprávanie príbehov pomocou videí, ktorý umožňuje modifikáciu trajektórie a správania subjektu v čase. Vďaka integrovaniu syntetizovaného subjektu do určeného prostredia môžu užívatelia vytvárať prirodzené výsledky, vrátane perspektívnych efektov, správneho pohybu objektov a interakcií medzi objektami a ich okolím.

Najlepšou časťou je, že táto metóda je výpočtovo efektívna a nevyžaduje doladenie modelu, trénovanie ani online optimalizáciu. Využívaním výkonu základného difúzneho modelu produkuje vysoko kvalitné výstupy s minimálnym úsilím zo strany užívateľa.

Hoci tento prístup prináša významný pokrok pri ovládaní trajektórií objektov vo vygenerovaných videách, stále existujú niektoré výzvy, ako napríklad problémy s generovaním presných atribútov pre viaceré objekty alebo prekreslené objekty. Avšak výskumníci naďalej pracujú na zlepšení tejto metódy, aby prekonali tieto obmedzenia a zlepšili užívateľský zážitok.

Tento prielomový výskum otvára nové možnosti v generovaní videí, vďaka čomu môžu bežní užívatelia s ľahkosťou vytvárať dynamické a pútavé videá. Ak sa chcete dozvedieť viac o tejto výskumnej práci, pozrite si článok a projekt od výskumníkov z NVIDIA Research.

The source of the article is from the blog cheap-sound.com

Privacy policy
Contact