一张照片，开启视频创作的新纪元 | 阿里EMO

只需一张照片，你就能制作出极具吸引力的“会说话”的视频头像，这一切完全由人工智能创造。当你将不想做的工作交给我时，对我来说，你就是一切。无论是扮演玛丽·托德·林肯帮我赢得总统大选，还是选择离开，门在那里。我的天啊，我爱你的裙子，这是哪里买的，复古风格太可爱了。

Alibaba Emo：https://humanaigc.github.io/emote-portrait-alive/

这将深刻改变视频创作乃至内容创作的方式。现在，我们已经可以将许多图片转化为TikTok上的网红或虚拟YouTuber了。对于这一技术带来的社会影响，人们有不同看法，有人甚至说这项技术真实到让人们将不再需要生育孩子。虽然我不想深入哲学讨论，但我想强调的是，这项技术的技术细节和其重大意义是令人难以置信的。值得一提的是，这项技术并非出自OpenAI之手，而是由中国的阿里巴巴集团推出。他们发布了一款名为EMO的新模型，即在弱条件下利用音频到视频的扩散模型生成表情丰富的人像视频，这远远超出了你所见过的任何东西。

现在，我们正处于一个转折点，我们正在重新定义我们与数字信息的互动方式。这是通过与这些AI系统的合作实现的，也许我们将拥有数个此类系统。它们的表现出奇的好，不仅可以进行对话，还可以唱歌、演讲等多种形式的内容创作。这个系统的技术细节非常精彩，如果你想看几个演示，我会在YouTube描述中放上链接，你绝对会觉得不可思议。

这个系统不仅支持多种语言，还允许使用交叉引用、调整速度等，几乎可以基于此创建TikTok或Instagram Reels内容。人们将会使用这项技术做出更多事情，这是不可避免的。那么，这一切是如何实现的呢？

EMO模型通过直接的音频到视频合成方法，克服了传统技术的限制，无需中间的3D模型，也不需要面部标记点。我们的方法确保了帧之间的无缝过渡，并在整个视频中保持一致的身份特征，实现了高度表达力和逼真的动画效果。实验结果表明，EMO不仅能生成令人信服的说话视频，还能生成各种风格的唱歌视频，在表现力和真实感方面大大超过现有的最先进技术。

值得注意的是，这一技术背后的架构包含了多个独特且高质量的元素，例如参考网和速度控制器，这些都有助于控制人物的动作速度和表情。此外，面部定位器的使用，保证了身份的一致性和帧过渡的平滑。

虽然阿里巴巴集团尚未分享代码，但我们期待看到更多来自他们的精彩作品。在技术快速发展的今天，这样的创新无疑将引发对现实本质的进一步思考。我很好奇你对此有何看法，请在评论区分享你的想法。

原创文章，作者：朋远方，如若转载，请注明出处：https://caovan.com/yizhangzhaopiankaiqishipinchuangzuodexinjiyuan/.html