Controllare le traiettorie degli oggetti nei video sintetizzati è diventato più facile

I ricercatori di NVIDIA hanno introdotto una nuova soluzione nel generare video basati su indicazioni testuali, consentendo agli utenti di controllare la traiettoria e il comportamento degli oggetti nei video sintetizzati. Questo approccio innovativo fornisce un’interfaccia ad alto livello attraverso la quale gli utenti possono specificare la posizione di un oggetto in vari punti del video, fornendo bounding boxes (bboxes) e indicazioni testuali corrispondenti.

Modificando le mappe di attenzione spaziale e temporale durante le prime fasi di diffusione della denoising, gli utenti possono concentrare l’attivazione nella posizione desiderata dell’oggetto. È importante sottolineare che questo approccio non interrompe l’associazione testo-immagine appresa e richiede minime modifiche al codice.

Una delle principali caratteristiche di questo nuovo metodo è la possibilità di aggiungere keyframe al bounding box, consentendo agli utenti di controllare le dimensioni e gli effetti prospettici dell’oggetto. Inoltre, l’inserimento di keyframe nell’indicazione testuale permette agli utenti di influenzare il comportamento del soggetto nel video sintetizzato.

Questo approccio intuitivo offre agli utenti occasionali uno strumento di narrazione video senza soluzione di continuità che consente di modificare la traiettoria e il comportamento del soggetto nel tempo. Integrando il soggetto sintetizzato in un ambiente specifico, gli utenti possono creare risultati naturali, compresi effetti prospettici, movimenti accurati degli oggetti e interazioni tra gli oggetti e il loro contesto.

La cosa migliore è che questo metodo è computazionalmente efficiente e non richiede affinamento del modello, addestramento o ottimizzazione online. Sfruttando la potenza del modello di diffusione sottostante, produce output di alta qualità con un minimo sforzo da parte dell’utente.

Sebbene questo approccio porti significativi progressi nel controllo delle traiettorie degli oggetti nei video sintetizzati, alcuni sfide rimangono ancora, come le difficoltà nell’ottenere attributi accurati per oggetti multipli o oggetti deformi. Tuttavia, i ricercatori continuano a lavorare per perfezionare il metodo al fine di superare queste limitazioni e migliorare l’esperienza dell’utente.

Questo innovativo ricerca apre nuove possibilità nella generazione di video, consentendo agli utenti occasionali di creare video dinamici e coinvolgenti con facilità. Per saperne di più su questa ricerca, consulta il paper e il progetto dei ricercatori di NVIDIA research.

The source of the article is from the blog yanoticias.es