微软发布了能够制作栩栩如生动画人脸的人工智能

人工智能将静态图像转化为会说话的肖像

微软的开发团队推出了一款名为VASA-1的前沿人工智能模型，能够从静态图像中生成动态的人脸，这一技术在专家中引起了关注。这一突破性成果在公司官方博客上发布。

该工具利用一个人类脸部的照片和一段配套的语音片段。即使在初始发布阶段，VASA-1也能动画化照片中的人脸，使嘴唇动作与语音配合，生成视频传达丰富的面部表情和自然的头部运动，增强了生成内容的逼真度和生动性。微软透露，他们在测试时并未使用真实的面部，而是使用StyleGAN2或DALL-E 3生成了它们，从而产生了具有完全虚构角色的超逼真视频。

微软谨慎推进

这家科技巨头意识到他们先进框架VASA-1可能带来的潜在风险。他们在博客中强调了他们的目标，即探讨为虚拟互动角色生成视觉情感技能，而不是模仿现实世界的个人。

根据微软称，VASA-1没有即时商业目标，描述它为纯粹的研究演示，没有现有产品或释放API的意图。虽然AI生成的瑕疵仍然可见，例如牙齿异常移动和有些生硬的头部运动，但VASA-1仍然比同行具有显著优势。

人工智能生成视频的未来

微软的新工具可以高效地生成每秒40帧的512×512像素分辨率视频，为“模仿人类对话能力的逼真化头像”铺平道路，开发人员表示。虽然目前只有公众和私人实体可以用于商业用途，但未来有可能将该框架作为在线服务提供。然而，公司仍然高度警惕释放VASA-1可能带来的潜在危险。

理解人工智能生成的动态面部的影响

微软进军能够为静态图像生成动画的人工智能实质上与深度学习和合成媒体的领域息息相关。与VASA-1及其功能相关的是“深度伪造”的历史背景，这是一种合成生成的媒体，在现有图像或视频中，一个人被替换为其他人的肖像。近年来，深度伪造技术已经取得了显著进展，展示了创新潜力和伦理关切。

重要问题和挑战

VASA-1引入了哪些潜在的伦理影响？ 人工智能生成的内容可能模糊现实与虚构之间的界限，可能被滥用以传播错误信息或制作未经同意的内容。

这项技术如何进行规范？ 确保对人工智能生成的图像的负责任使用涉及制定清晰的指导方针和规定，以防止有害应用。

有哪些隐私考虑？ 即使微软没有使用真实的面部，但在使用某人的肖像时仍存在同意和隐私问题，当前在这方面缺乏全面的法律框架。

如果您想了解更多关于人工智能和合成媒体开发的信息，微软的官方域名可以提供相关的公司和研究见解。他们的官方域名是Microsoft。在搜索有关主题的资源或更多信息时，请务必验证URL的重要性，并确保它导向正确的主域。

The source of the article is from the blog klikeri.rs