Skip to content

搞英语 → 看世界

翻译英文优质信息和名人推特

Menu
  • 首页
  • 作者列表
  • 独立博客
  • 专业媒体
  • 名人推特
  • 邮件列表
  • 关于本站
Menu

谷歌用自己的名为 Imagen Video 来回答 Meta 的视频生成 AI

Posted on 2022-10-06

为了不被 Meta 的 Make-A-Video 超越,谷歌今天详细介绍了其在Imagen Video上的工作,这是一种人工智能系统,可以根据文本提示(例如“泰迪熊洗盘子”)生成视频剪辑。虽然结果并不完美——系统生成的循环剪辑往往会有伪影和噪音——谷歌声称 Imagen Video 是朝着具有“高度可控性”和世界知识的系统迈出的一步,包括生成镜头的能力在一系列艺术风格中。

正如我的同事 Devin Coldewey在他关于制作视频的文章中指出的那样,文本到视频系统并不新鲜。今年早些时候,清华大学和北京人工智能研究院的一组研究人员发布了 CogVideo,可以将文本翻译成相当高保真的短片。但 Imagen Video 似乎是对先前最先进技术的重大飞跃,显示了现有系统难以理解的动画字幕的能力。

“这绝对是一种进步,”阿尔伯塔大学研究人工智能和机器学习的助理教授 Matthew Guzdial 通过电子邮件告诉 TechCrunch。 “正如您从视频示例中看到的那样,即使通信团队正在选择最佳输出,但仍然存在奇怪的模糊和人为因素。所以这绝对不会很快直接用于动画或电视中。但它或类似的东西肯定可以嵌入工具中,以帮助加快某些事情的速度。”

谷歌图像视频

图片来源:谷歌

谷歌图像视频

图片来源:谷歌

Imagen Video 建立在 Google 的Imagen之上,这是一个可与 OpenAI 的DALL-E 2和Stable Diffusion相媲美的图像生成系统。 Imagen 是所谓的“扩散”模型,通过学习如何“破坏”和“恢复”许多现有数据样本来生成新数据(例如视频)。当它输入现有样本时,该模型可以更好地恢复之前破坏的数据以创建新作品。

谷歌图像视频

图片来源:谷歌

正如 Imagen Video 背后的谷歌研究团队在一篇论文中解释的那样,该系统采用文本描述并生成一个 16 帧、每秒 3 帧、分辨率为 24 x 48 像素的视频。然后,系统升级并“预测”额外的帧,最终生成 128 帧、每秒 24 帧、720p (1280×768) 的视频。

谷歌图像视频

图片来源:谷歌

谷歌图像视频

图片来源:谷歌

谷歌表示,Imagen Video 在 1400 万个视频-文本对和 6000 万个图像-文本对以及公开可用的 LAION-400M 图像-文本数据集上进行了训练,使其能够推广到一系列美学。 (不太巧合的是,LAION 的一部分用于训练稳定扩散。)在实验中,他们发现 Imagen Video 可以创建梵高绘画和水彩风格的视频。也许更令人印象深刻的是,他们声称 Imagen Video 展示了对深度和三维度的理解,使其能够创建像无人机飞行这样的视频,这些视频可以旋转并从不同角度捕捉物体而不会扭曲它们。

Imagen Video 对当今可用的图像生成系统进行了重大改进,还可以正确渲染文本。虽然 Stable Diffusion 和 DALL-E 2 都难以将诸如“’Diffusion’ 的标志”之类的提示翻译成可读的类型,但 Imagen Video 可以毫无问题地渲染它——至少从论文来看是这样。

这并不是说 Imagen Video 没有限制。与 Make-A-Video 一样,即使是从 Imagen Video 中精心挑选的剪辑也像 Guzdial 所暗示的那样,在部分地方出现了紧张和扭曲,物体以物理上不自然且不可能的方式融合在一起。

“总的来说,文本到视频的问题仍未解决,我们不太可能很快达到像 DALL-E 2 或Midjourney 这样的质量,”Guzdial 继续说道。

为了改进这一点,Imagen Video 团队计划与Phenaki背后的研究人员联合起来,这是另一个谷歌文本到视频系统今天首次亮相,可以将长而详细的提示变成两分钟以上的视频——尽管质量较低。

值得稍微揭开 Phenaki 的帷幕,看看团队之间的合作可能会导致什么。 Imagen Video 专注于质量,而 Phenaki 则优先考虑连贯性和长度。该系统可以将一段长的提示变成任意长度的电影,从骑摩托车的人到飞越未来城市的外星飞船的场景。 Phenaki 生成的剪辑与 Imagen Video 的剪辑存在相同的故障,但令我惊讶的是,它们与提示它们的冗长而细致入微的文本描述密切相关。

例如,这里有一个提供给 Phenaki 的提示:

未来城市中的大量交通。一艘外星飞船抵达未来城市。相机进入外星飞船。摄像机向前移动,直到在蓝色房间里出现一名宇航员。宇航员正在键盘上打字。相机远离宇航员。宇航员离开键盘,向左走。宇航员离开键盘走开了。相机越过宇航员,看着屏幕。宇航员身后的屏幕显示鱼在海中游泳。崩溃放大到蓝色的鱼。我们跟随蓝色的鱼在黑暗的海洋中游泳。相机透过水指向天空。未来城市的海洋和海岸线。崩溃缩放向一座未来派摩天大楼。相机放大到许多窗口之一。我们在一间办公室里,桌子空空如也。一头狮子在办公桌上奔跑。摄像机放大了办公室内狮子的脸。放大到办公室里穿着深色西装的狮子。戴着的狮子看着镜头微笑。摄像机慢慢拉远到摩天大楼的外部。现代城市日落的游戏中时光倒流。

这是生成的视频:

费纳基

图片来源:谷歌

回到 Imagen Video,研究人员还指出,用于训练系统的数据包含有问题的内容,这可能导致 Imagen Video 产生图形暴力或色情片段。谷歌表示,“在这些担忧得到缓解之前”,它不会发布 Imagen Video 模型或源代码,而且与 Meta 不同,它不会提供任何形式的注册表单来注册兴趣。

尽管如此,随着文本到视频技术的快速发展,可能不久就会出现一个开源模型——既增强了人类的创造力,又提出了涉及深度伪造、 版权和错误信息的棘手挑战。

谷歌用自己的名为 Imagen Video的Kyle Wiggers回答 Meta 的视频生成 AI,最初发表在TechCrunch上

原文: https://techcrunch.com/2022/10/05/google-answers-metas-video-generating-ai-with-its-own-dubbed-imagen-video/

本站文章系自动翻译,站长会周期检查,如果有不当内容,请点此留言,非常感谢。
  • Abhinav
  • Abigail Pain
  • Adam Fortuna
  • Alberto Gallego
  • Alex Wlchan
  • Anil Dash
  • Answer.AI
  • Arne Bahlo
  • Ben Carlson
  • Ben Kuhn
  • Bert Hubert
  • Big Technology
  • Bits about Money
  • Brandon Skerritt
  • Brian Krebs
  • ByteByteGo
  • Chip Huyen
  • Chips and Cheese
  • Christopher Butler
  • Colin Percival
  • Cool Infographics
  • Dan Sinker
  • David Walsh
  • Dmitry Dolzhenko
  • Dustin Curtis
  • eighty twenty
  • Elad Gil
  • Ellie Huxtable
  • Ethan Dalool
  • Ethan Marcotte
  • Exponential View
  • FAIL Blog
  • Founder Weekly
  • Geoffrey Huntley
  • Geoffrey Litt
  • Greg Mankiw
  • HeardThat Blog
  • Henrique Dias
  • Herman Martinus
  • Hypercritical
  • IEEE Spectrum
  • Investment Talk
  • Jaz
  • Jeff Geerling
  • Jonas Hietala
  • Josh Comeau
  • Lenny Rachitsky
  • Li Haoyi
  • Liz Danzico
  • Lou Plummer
  • Luke Wroblewski
  • Maggie Appleton
  • Matt Baer
  • Matt Stoller
  • Matthias Endler
  • Mert Bulan
  • Mind Matters
  • Mostly metrics
  • Naval Ravikant
  • News Letter
  • NextDraft
  • Non_Interactive
  • Not Boring
  • One Useful Thing
  • Phil Eaton
  • Product Market Fit
  • Readwise
  • ReedyBear
  • Robert Heaton
  • Rohit Patel
  • Ruben Schade
  • Sage Economics
  • Sam Altman
  • Sam Rose
  • selfh.st
  • Shtetl-Optimized
  • Simon schreibt
  • Slashdot
  • Small Good Things
  • Steph Ango
  • Stephen Wolfram
  • Steve Blank
  • Taylor Troesh
  • Telegram Blog
  • The Macro Compass
  • The Pomp Letter
  • thesephist
  • Thinking Deep & Wide
  • Tim Kellogg
  • Understanding AI
  • Wes Kao
  • 英文媒体
  • 英文推特
  • 英文独立博客
©2025 搞英语 → 看世界 | Design: Newspaperly WordPress Theme