以文本为依据控制合成视频中对象轨迹变得更加简单

NVIDIA研究团队在生成基于文本提示的视频方面取得了重大突破，使用户能够控制合成视频中对象的轨迹和行为。这项创新的方法通过高级界面允许用户使用边界框（bboxes）和对应的文本提示，在视频的不同点指定对象的位置。

通过在初始去噪扩散步骤中编辑空间和时间的注意力图，用户可以将激活集中在对象所需的位置。重要的是，这种方法不会破坏学习到的文本-图像关联，并且需要进行最少量的代码修改。

这种新方法的一个关键特点是能够为边界框设定关键帧，使用户能够控制对象的大小和透视效果。此外，为文本提示设定关键帧还可以影响合成视频中的主题行为。

这种直观的方法为普通用户提供了一个无缝视频叙事工具，可以随时间修改主题的轨迹和行为。通过将合成的主题融入特定的环境中，用户可以创造自然的效果，包括透视效果、准确的对象运动以及对象与周围环境的交互。

最好的部分是，这种方法在计算上高效，并且不需要模型微调、训练或在线优化。通过利用底层扩散模型的强大功能，用户可以轻松产出高质量的输出。

尽管这种方法在控制合成视频中对象轨迹方面取得了重大进展，但仍然存在一些挑战，例如难以为多个对象生成准确的属性或变形的对象。然而，研究人员们正在不断优化这种方法，以克服这些限制并提升用户体验。

这项突破性研究为视频生成开辟了新的可能性，使普通用户能够轻松创建富有活力和吸引力的视频。要了解更多关于这项研究的信息，请查阅NVIDIA研究团队的论文和项目。

The source of the article is from the blog papodemusica.com