以文本为依据控制合成视频中对象轨迹变得更加简单

NVIDIA研究团队在生成基于文本提示的视频方面取得了重大突破,使用户能够控制合成视频中对象的轨迹和行为。这项创新的方法通过高级界面允许用户使用边界框(bboxes)和对应的文本提示,在视频的不同点指定对象的位置。

通过在初始去噪扩散步骤中编辑空间和时间的注意力图,用户可以将激活集中在对象所需的位置。重要的是,这种方法不会破坏学习到的文本-图像关联,并且需要进行最少量的代码修改。

这种新方法的一个关键特点是能够为边界框设定关键帧,使用户能够控制对象的大小和透视效果。此外,为文本提示设定关键帧还可以影响合成视频中的主题行为。

这种直观的方法为普通用户提供了一个无缝视频叙事工具,可以随时间修改主题的轨迹和行为。通过将合成的主题融入特定的环境中,用户可以创造自然的效果,包括透视效果、准确的对象运动以及对象与周围环境的交互。

最好的部分是,这种方法在计算上高效,并且不需要模型微调、训练或在线优化。通过利用底层扩散模型的强大功能,用户可以轻松产出高质量的输出。

尽管这种方法在控制合成视频中对象轨迹方面取得了重大进展,但仍然存在一些挑战,例如难以为多个对象生成准确的属性或变形的对象。然而,研究人员们正在不断优化这种方法,以克服这些限制并提升用户体验。

这项突破性研究为视频生成开辟了新的可能性,使普通用户能够轻松创建富有活力和吸引力的视频。要了解更多关于这项研究的信息,请查阅NVIDIA研究团队的论文和项目。

The source of the article is from the blog papodemusica.com

Privacy policy
Contact