Skip to content

搞英语 → 看世界

翻译英文优质信息和名人推特

Menu
  • 首页
  • 作者列表
  • 独立博客
  • 专业媒体
  • 名人推特
  • 邮件列表
  • 关于本站
Menu

Meta 的 Make-A-Video AI 实现了一种新的、噩梦般的艺术状态

Posted on 2022-09-30

Meta 的研究人员通过 Make-A-Video在人工智能艺术生成领域取得了重大飞跃,这是一种创造性地命名的新技术——你猜对了——只用文字提示制作视频。结果令人印象深刻且多种多样,而且毫无例外地都有些令人毛骨悚然。

我们以前见过文本到视频模型——它是文本到图像模型(如 DALL-E)的自然扩展,从提示中输出静止图像。但是,虽然从静止图像到移动图像的概念跳跃对于人类大脑来说很小,但在机器学习模型中实现却绝非易事。

Make-A-Video 实际上并没有在后端对游戏进行太大的改变——正如研究人员在描述它的论文中指出的那样,“一个只看到描述图像的文本的模型在生成短视频方面非常有效。”

AI 使用现有的有效扩散技术来创建图像,该技术本质上是从纯视觉静态“去噪”到目标提示的反向工作。这里要补充的是,该模型还对一堆未标记的视频内容进行了无监督训练(也就是说,它在没有人类强烈指导的情况下检查数据本身)。

它从一开始就知道如何制作逼真的图像;它从第二个知道的是视频的连续帧是什么样的。令人惊讶的是,它能够非常有效地将这些组合在一起,而无需特别培训它们应该如何组合。

“在所有方面,空间和时间分辨率、对文本的忠实度和质量,Make-A-Video 都在文本到视频的生成中设置了新的最先进水平,由定性和定量测量决定,”写研究人员。

很难不同意。以前的文本到视频系统使用了不同的方法,结果并不令人印象深刻,但很有希望。现在 Make-A-Video 将它们从水中吹出来,实现了与可能 18 个月前在原始 DALL-E 或其他上一代系统中的图像一致的保真度。

但必须说:他们肯定还是有些不对劲。并不是说我们应该期待照片写实或完美自然的运动,但结果都有一种……嗯,没有别的词可以形容它:它们有点像噩梦一样,不是吗?

图片来源:元

图片来源:元

他们只是有一些可怕的品质,既梦幻又可怕。动作的质量很奇怪,就好像它是一部定格电影。腐败和人工制品给每件作品一种毛茸茸的、超现实的感觉,就像物体在泄漏一样。人们相互融合——不了解对象的边界或某物应该终止或接触的内容。

图片来源:元

图片来源:元

我并不是说这一切都是某种 AI 势利小人,他们只想要最好的高清逼真图像。我只是觉得有趣的是,无论这些视频在某种意义上多么逼真,它们在其他方面都是如此奇怪和令人反感。它们可以快速且任意地生成,这令人难以置信——而且只会变得更好。但即使是最好的图像生成器仍然具有难以想象的超现实品质。

Make-A-Video 还允许将静止图像和其他视频转换为其变体或扩展,就像图像生成器也可以用图像本身来提示一样。结果稍微不那么令人不安。

这确实是从以前存在的一个巨大的进步,团队是值得祝贺的。它目前尚未向公众开放,但您可以在此处注册以获取他们稍后决定的任何访问形式的列表。

Meta 的 Make-A-Video AI 实现了由Devin Coldewey最初发表在TechCrunch上的噩梦般的新艺术状态

原文: https://techcrunch.com/2022/09/29/meta-make-a-video-ai-achieves-a-new-creepy-state-of-the-art/

本站文章系自动翻译,站长会周期检查,如果有不当内容,请点此留言,非常感谢。
  • Abhinav
  • Abigail Pain
  • Adam Fortuna
  • Alberto Gallego
  • Alex Wlchan
  • Anil Dash
  • Answer.AI
  • Arne Bahlo
  • Ben Carlson
  • Ben Kuhn
  • Bert Hubert
  • Big Technology
  • Bits about Money
  • Brandon Skerritt
  • Brian Krebs
  • ByteByteGo
  • Chip Huyen
  • Chips and Cheese
  • Christopher Butler
  • Colin Percival
  • Cool Infographics
  • Dan Sinker
  • David Walsh
  • Dmitry Dolzhenko
  • Dustin Curtis
  • eighty twenty
  • Elad Gil
  • Ellie Huxtable
  • Ethan Dalool
  • Ethan Marcotte
  • Exponential View
  • FAIL Blog
  • Founder Weekly
  • Geoffrey Huntley
  • Geoffrey Litt
  • Greg Mankiw
  • HeardThat Blog
  • Henrique Dias
  • Herman Martinus
  • Hypercritical
  • IEEE Spectrum
  • Investment Talk
  • Jaz
  • Jeff Geerling
  • Jonas Hietala
  • Josh Comeau
  • Lenny Rachitsky
  • Li Haoyi
  • Liz Danzico
  • Lou Plummer
  • Luke Wroblewski
  • Maggie Appleton
  • Matt Baer
  • Matt Stoller
  • Matthias Endler
  • Mert Bulan
  • Mind Matters
  • Mostly metrics
  • Naval Ravikant
  • News Letter
  • NextDraft
  • Non_Interactive
  • Not Boring
  • One Useful Thing
  • Phil Eaton
  • Product Market Fit
  • Readwise
  • ReedyBear
  • Robert Heaton
  • Rohit Patel
  • Ruben Schade
  • Sage Economics
  • Sam Altman
  • Sam Rose
  • selfh.st
  • Shtetl-Optimized
  • Simon schreibt
  • Slashdot
  • Small Good Things
  • Steph Ango
  • Stephen Wolfram
  • Steve Blank
  • Taylor Troesh
  • Telegram Blog
  • The Macro Compass
  • The Pomp Letter
  • thesephist
  • Thinking Deep & Wide
  • Tim Kellogg
  • Understanding AI
  • Wes Kao
  • 英文媒体
  • 英文推特
  • 英文独立博客
©2025 搞英语 → 看世界 | Design: Newspaperly WordPress Theme