微软亚洲研究院开发出能够让肖像和图画栩栩如生的人工智能

Microsoft的AI创新将图像以声音和动作栩栩如生

在技术突破中，Microsoft Research Asia推出了一个名为VASA-1的实验工具，旨在将静止图像和素描动画化。当与音频录音配对时，它会巧妙地实时从照片或插图中制作一个栩栩如生、说话的面部。

项目网站上提供了大量展示该技术的示例视频。这些演示展示了令人惊叹的质量水平，有些几乎与现实难以区分。然而，仔细观察可以注意到一些变化，表明是人工生成的，例如可变的牙齿宽度或摇摆的牙龈线。

鉴于这种技术可能被误用，VASA-1背后的团队选择暂不公开任何代码片段，直到他们确保其在道德和负责任的应用中。虽然并未具体披露确保此类问题的措施，但意图很明确：优先考虑道德使用。

VASA-1的潜在好处和道德考虑

尽管存在这些担忧，开发人员表示该技术具有重要好处。 VASA-1可以帮助沟通困难的人更轻松地交流，提供治疗援助，并为孤独或悲伤的人提供陪伴。

该模型是在VoxCeleb2数据集上训练的，该数据集包括100多万个语音片段，并且在理论上能够使著名的艺术作品如蒙娜丽莎动画化。

详细介绍VASA-1的科学出版物可以在arXiv预印本服务器上找到，使得这项研究能够为同行评议和科学界内的讨论提供渠道。

潜在问题与答案

1. VASA-1是什么？
VASA-1是由Microsoft Research Asia开发的实验工具，可以通过实时创建一个与音频录音相对应的逼真说话的面部来将静态图像和素描动画化。

2. VASA-1如何向公众展示？
展示VASA-1功能的示例视频可在该项目的网站上找到，展示了该工具可以实现的逼真动画水平。

3. VASA-1使用哪个数据集进行训练？
VoxCeleb2数据集包括100多万个语音片段，从而训练了该模型，使其能够让广泛的面孔和表情动画化。

4. 关于VASA-1的科学出版物在哪里可以找到？
关于VASA-1的发表物可以在arXiv预印本服务器上找到，使其能够为同行评议和科学讨论提供渠道。

主要挑战与争议
与AI动画肖像和插图相关的一个主要挑战是滥用的可能性，例如创建用于误导、欺诈或骚扰的深度伪造视频。该技术的道德考虑要求严格的控制和规定，以防止滥用。开发人员自己也意识到了这一问题，他们采取了谨慎的态度，不会发布代码，直到他们找到一种确保其道德和负责应用的方式。

优点和缺点

优点：
– VASA-1有助于沟通障碍的人通过提供一种新的表达方式来表达自己。
– 它可以用于治疗应用，帮助处理失落感的人或为孤独的人提供陪伴。
– 在娱乐和教育领域，动画化的历史人物和文学或艺术中的角色可以增强参与感和学习体验。

缺点：
– 如果技术落入错误的手中，可以用于创建深度伪造，导致信息错误或媒体操纵。
– 存在违反个人隐私权和图像权的风险，如果未经同意动画化个人形象。
– 超逼真的虚假内容可能进一步破坏公众对数字媒体的信任。

建议的相关链接：
要了解更多关于Microsoft Research及其项目的信息，您可以访问Microsoft Research。

The source of the article is from the blog motopaddock.nl