Meta 的 Make-A-Video AI 实现了一种新的、噩梦般的艺术状态

Meta 的研究人员通过 Make-A-Video在人工智能艺术生成领域取得了重大飞跃，这是一种创造性地命名的新技术——你猜对了——只用文字提示制作视频。结果令人印象深刻且多种多样，而且毫无例外地都有些令人毛骨悚然。

我们以前见过文本到视频模型——它是文本到图像模型（如 DALL-E）的自然扩展，从提示中输出静止图像。但是，虽然从静止图像到移动图像的概念跳跃对于人类大脑来说很小，但在机器学习模型中实现却绝非易事。

Make-A-Video 实际上并没有在后端对游戏进行太大的改变——正如研究人员在描述它的论文中指出的那样，“一个只看到描述图像的文本的模型在生成短视频方面非常有效。”

AI 使用现有的有效扩散技术来创建图像，该技术本质上是从纯视觉静态“去噪”到目标提示的反向工作。这里要补充的是，该模型还对一堆未标记的视频内容进行了无监督训练（也就是说，它在没有人类强烈指导的情况下检查数据本身）。

它从一开始就知道如何制作逼真的图像；它从第二个知道的是视频的连续帧是什么样的。令人惊讶的是，它能够非常有效地将这些组合在一起，而无需特别培训它们应该如何组合。

“在所有方面，空间和时间分辨率、对文本的忠实度和质量，Make-A-Video 都在文本到视频的生成中设置了新的最先进水平，由定性和定量测量决定，”写研究人员。

很难不同意。以前的文本到视频系统使用了不同的方法，结果并不令人印象深刻，但很有希望。现在 Make-A-Video 将它们从水中吹出来，实现了与可能 18 个月前在原始 DALL-E 或其他上一代系统中的图像一致的保真度。

但必须说：他们肯定还是有些不对劲。并不是说我们应该期待照片写实或完美自然的运动，但结果都有一种……嗯，没有别的词可以形容它：它们有点像噩梦一样，不是吗？

图片来源：元

图片来源：元

他们只是有一些可怕的品质，既梦幻又可怕。动作的质量很奇怪，就好像它是一部定格电影。腐败和人工制品给每件作品一种毛茸茸的、超现实的感觉，就像物体在泄漏一样。人们相互融合——不了解对象的边界或某物应该终止或接触的内容。

图片来源：元

图片来源：元

我并不是说这一切都是某种 AI 势利小人，他们只想要最好的高清逼真图像。我只是觉得有趣的是，无论这些视频在某种意义上多么逼真，它们在其他方面都是如此奇怪和令人反感。它们可以快速且任意地生成，这令人难以置信——而且只会变得更好。但即使是最好的图像生成器仍然具有难以想象的超现实品质。

Make-A-Video 还允许将静止图像和其他视频转换为其变体或扩展，就像图像生成器也可以用图像本身来提示一样。结果稍微不那么令人不安。

这确实是从以前存在的一个巨大的进步，团队是值得祝贺的。它目前尚未向公众开放，但您可以在此处注册以获取他们稍后决定的任何访问形式的列表。