Meta 的研究人员通过 Make-A-Video在人工智能艺术生成领域取得了重大飞跃,这是一种创造性地命名的新技术——你猜对了——只用文字提示制作视频。结果令人印象深刻且多种多样,而且毫无例外地都有些令人毛骨悚然。
我们以前见过文本到视频模型——它是文本到图像模型(如 DALL-E)的自然扩展,从提示中输出静止图像。但是,虽然从静止图像到移动图像的概念跳跃对于人类大脑来说很小,但在机器学习模型中实现却绝非易事。
Make-A-Video 实际上并没有在后端对游戏进行太大的改变——正如研究人员在描述它的论文中指出的那样,“一个只看到描述图像的文本的模型在生成短视频方面非常有效。”
AI 使用现有的有效扩散技术来创建图像,该技术本质上是从纯视觉静态“去噪”到目标提示的反向工作。这里要补充的是,该模型还对一堆未标记的视频内容进行了无监督训练(也就是说,它在没有人类强烈指导的情况下检查数据本身)。
它从一开始就知道如何制作逼真的图像;它从第二个知道的是视频的连续帧是什么样的。令人惊讶的是,它能够非常有效地将这些组合在一起,而无需特别培训它们应该如何组合。
“在所有方面,空间和时间分辨率、对文本的忠实度和质量,Make-A-Video 都在文本到视频的生成中设置了新的最先进水平,由定性和定量测量决定,”写研究人员。
很难不同意。以前的文本到视频系统使用了不同的方法,结果并不令人印象深刻,但很有希望。现在 Make-A-Video 将它们从水中吹出来,实现了与可能 18 个月前在原始 DALL-E 或其他上一代系统中的图像一致的保真度。
但必须说:他们肯定还是有些不对劲。并不是说我们应该期待照片写实或完美自然的运动,但结果都有一种……嗯,没有别的词可以形容它:它们有点像噩梦一样,不是吗?
图片来源:元
图片来源:元
他们只是有一些可怕的品质,既梦幻又可怕。动作的质量很奇怪,就好像它是一部定格电影。腐败和人工制品给每件作品一种毛茸茸的、超现实的感觉,就像物体在泄漏一样。人们相互融合——不了解对象的边界或某物应该终止或接触的内容。
图片来源:元
图片来源:元
我并不是说这一切都是某种 AI 势利小人,他们只想要最好的高清逼真图像。我只是觉得有趣的是,无论这些视频在某种意义上多么逼真,它们在其他方面都是如此奇怪和令人反感。它们可以快速且任意地生成,这令人难以置信——而且只会变得更好。但即使是最好的图像生成器仍然具有难以想象的超现实品质。
Make-A-Video 还允许将静止图像和其他视频转换为其变体或扩展,就像图像生成器也可以用图像本身来提示一样。结果稍微不那么令人不安。
这确实是从以前存在的一个巨大的进步,团队是值得祝贺的。它目前尚未向公众开放,但您可以在此处注册以获取他们稍后决定的任何访问形式的列表。
Meta 的 Make-A-Video AI 实现了由Devin Coldewey最初发表在TechCrunch上的噩梦般的新艺术状态
原文: https://techcrunch.com/2022/09/29/meta-make-a-video-ai-achieves-a-new-creepy-state-of-the-art/