Skip to content

搞英语 → 看世界

翻译英文优质信息和名人推特

Menu
  • 首页
  • 作者列表
  • 独立博客
  • 专业媒体
  • 名人推特
  • 邮件列表
  • 关于本站
Menu

QuickVid 使用 AI 生成带有画外音的短视频

Posted on 2022-12-31

生成式 AI 即将用于视频。一个名为QuickVid的新网站将多个生成式 AI 系统组合成一个工具,用于自动创建短格式 YouTube、Instagram TikTok 和 Snapchat 视频。只要输入一个单词,QuickVid 就会从库中选择一个背景视频,编写脚本和关键字,叠加由DALL-E 2生成的图像,并从 YouTube 的免版税音乐库中添加合成画外音和背景音乐。

QuickVid 的创建者 Daniel Habib 表示,他正在构建这项服务,以帮助创作者满足粉丝“不断增长”的需求。

“通过为创作者提供快速轻松地制作高质量内容的工具,QuickVid 帮助创作者增加内容输出,降低倦怠的风险,”Habib 在电子邮件采访中告诉 TechCrunch。 “我们的目标是通过利用人工智能的进步,让您最喜欢的创作者能够满足观众的需求。”

但取决于它们的使用方式,像 QuickVid 这样的工具可能会用垃圾内容和重复内容淹没本已拥挤的频道。他们还面临来自选择不使用这些工具的创作者的潜在反对,无论是因为成本(每月 10 美元)还是原则,但可能不得不与大量新的 AI 生成的视频竞争。

追求视频

QuickVid,Habib 是一名自学成才的开发人员,之前曾在 Meta 工作过 Facebook Live 和视频基础设施,它在几周内建成,于 12 月 27 日推出。目前它相对简单——Habib 说更多的个性化选项将会到来一月 — 但 QuickVid 可以拼凑构成典型的信息性 YouTube 短片或 TikTok 视频的组件,包括字幕甚至头像。

它易于使用。首先,用户输入描述他们想要创建的视频主题的提示。 QuickVid 使用提示生成脚本,利用 GPT-3 的生成文本功能。根据自动从脚本中提取或手动输入的关键字,QuickVid 从免版税的库存媒体库 Pexels 中选择背景视频,并使用 DALL-E 2 生成叠加图像。然后通过 Google Cloud 的文本转语音 API 输出画外音— Habib 说用户很快就能克隆他们的声音 — 然后再将所有这些元素组合成视频。

快视

图片来源: QuickVid

看这个用提示“猫”制作的视频:

https://techcrunch.com/wp-content/uploads/2022/12/img_5pg7k95x9ig2tofh7mkrr_cfr.mp4

或者这个:

https://techcrunch.com/wp-content/uploads/2022/12/img_61ighv4x55slq9582dbx_cfr.mp4

QuickVid 肯定不会突破生成 AI 的可能性界限。 Meta 和谷歌都展示了人工智能系统,可以根据文本提示生成完全原创的剪辑。但是 QuickVid 合并了现有的 AI,以利用重复的、模板化的大量 b-roll 短视频格式,解决了必须自己生成素材的问题。

“成功的创作者拥有极高的质量标准,并且对发布他们认为不属于自己声音的内容不感兴趣,”Habib 说。 “这是我们关注的用例。”

据推测,就质量而言,QuickVid 的视频通常是鱼龙混杂。背景视频往往有点随机或仅与主题无关,考虑到 QuickVid 目前仅限于 Pexels 目录,这并不奇怪。与此同时,DALL-E 2 生成的图像显示了当今文本到图像技术的局限性,例如乱码文本和比例失调。

作为对我的反馈的回应,Habib 说 QuickVid“每天都在接受测试和修补”。

版权问题

根据 Habib 的说法,QuickVid 用户保留使用他们创建的商业内容的权利,并有权在 YouTube 等平台上将其货币化。但是围绕人工智能生成的内容的版权状况是……模糊的,至少目前是这样。例如,美国专利商标局 (USPTO) 最近采取行动,撤销了对 AI 生成的漫画的版权保护,称受版权保护的作品需要人类作者身份。

当被问及美国专利商标局的决定可能如何影响 QuickVid 时,Habib 表示,他认为这仅涉及人工智能生成产品的“可专利性”,而不涉及创作者使用其内容并从中获利的权利。他指出,创作者并不经常为视频提交专利,他们通常倾向于创作者经济,让其他创作者重新利用他们的剪辑来增加他们自己的影响力。

“创作者关心用他们的声音发布高质量的内容,这将有助于发展他们的频道,”Habib 说。

即将出现的另一项法律挑战可能会影响 QuickVid 的 DALL-E 2 集成,进而影响该网站生成图像叠加层的能力。微软、GitHub 和 OpenAI 在集体诉讼中被起诉,指控他们允许代码生成系统 Copilot 在不提供信用的情况下反省部分许可代码,从而违反版权法。 (Copilot 由微软拥有的 OpenAI 和 GitHub 共同开发。)这个案例对像 DALL-E 2 这样的生成艺术 AI 有影响,它同样被发现从他们训练的数据集中复制和粘贴(即图片)。

Habib 并不担心,认为生成 AI 精灵已经破灭了。 “如果明天出现另一起诉讼并且 OpenAI 消失了,那么有几种替代方案可以为 QuickVid 提供支持,”他说,指的是类似于开源 DALL-E 2 的系统Stable Diffusion 。 QuickVid 已经在测试用于生成头像图片的 Stable Diffusion。

审核和垃圾邮件

除了法律困境之外,QuickVid 可能很快就会面临审核问题。虽然 OpenAI 已经实施了过滤器和技术来防止它们,但生成 AI 具有众所周知的毒性和事实准确性问题。 GPT-3 喷出错误信息,特别是关于最近发生的事件,这些信息超出了其知识库的范围。而 ChatGPT 是 GPT-3 的微调后代,已被证明使用性别歧视和种族歧视的语言。

对于使用 QuickVid 制作信息视频的人来说,这尤其令人担忧。在快速测试中,我让我的搭档——他比我更有创造力,尤其是在这方面——输入一些攻击性提示,看看 QuickVid 会生成什么。值得 QuickVid 赞扬的是,“犹太新世界秩序”和“9/11 阴谋论”等明显有问题的提示并没有产生有毒的脚本。但对于“向学生灌输批判种族理论”,QuickVid 生成了一段视频,暗示可以使用批判种族理论给学童洗脑。

看:

快视

https://techcrunch.com/wp-content/uploads/2022/12/img_e4wba39us0vqtc8051491_cfr.mp4

Habib 表示,他依靠 OpenAI 的过滤器来完成大部分审核工作,并断言用户有责任手动审查 QuickVid 创建的每个视频,以确保“一切都在法律范围内”。

“作为一般规则,我认为人们应该能够表达自己并创造他们想要的任何内容,”哈比卜说。

这显然包括垃圾内容。 Habib 认为视频平台的算法而非 QuickVid 最适合确定视频的质量,而制作低质量内容的人“只会损害他们自己的声誉”。他说,声誉受损自然会阻止人们使用 QuickVid 发起大规模垃圾邮件活动。

“如果人们不想看你的视频,那么你就不会在 YouTube 等平台上获得分发,”他补充道。 “制作低质量的内容也会让人们以负面的眼光看待你的频道。”

但看看像 Fractl 这样的广告公司很有启发意义,它在 2019 年使用了一个名为 Grover 的人工智能系统来生成整个网站的营销材料——名誉扫地。在接受 The Verge 采访时,Fractl 的合伙人 Kristin Tynski 表示,她预见到生成式 AI 会在“可以想象到的每一个利基市场上引发大规模的计算机生成内容海啸”。

无论如何,像 TikTok 和 YouTube 这样的视频共享平台不必应对大规模审核 AI 生成的内容。 Deepfakes——用其他人的肖像代替现有人物的合成视频——几年前开始在 YouTube 等平台上流行,这是由使 deepfake 视频更容易制作的工具推动的。但与当今最有说服力的深度造假不同的是,QuickVid 创建的视频类型显然不是 AI 以任何方式生成的。

谷歌搜索关于人工智能生成文本的政策可能是视频领域即将发生的事情的预览。在涉及搜索排名的情况下,谷歌不会将合成文本与人工编写的文本区别对待,而是对“旨在操纵搜索排名而不是帮助用户”的内容采取行动。这包括拼接在一起或从“[没有]增加足够价值”的不同网页组合的内容,以及通过纯自动化流程生成的内容,两者都可能适用于 QuickVid。

换句话说,如果人工智能生成的视频以一种主要方式起飞,它们可能不会被平台完全禁止,而只是成为开展业务的成本。这不太可能消除专家们的恐惧,他们认为像 TikTok 这样的平台正在成为误导性视频的新发源地,但是——正如 Habib 在采访中所说的那样——“生成人工智能的革命并没有停止。”

QuickVid 使用 AI 生成短视频,并配有最初发布在TechCrunch上的Kyle Wiggers的画外音

原文: https://techcrunch.com/2022/12/30/quickvid-uses-ai-to-generate-short-form-videos-complete-with-voiceovers/

本站文章系自动翻译,站长会周期检查,如果有不当内容,请点此留言,非常感谢。
  • Abhinav
  • Abigail Pain
  • Adam Fortuna
  • Alberto Gallego
  • Alex Wlchan
  • Alin Panaitiu
  • Anil Dash
  • Answer.AI
  • Arne Bahlo
  • Ben Carlson
  • Ben Kuhn
  • Bert Hubert
  • Big Technology
  • Bits about Money
  • Brandon Skerritt
  • Brent Simmons
  • Brian Krebs
  • ByteByteGo
  • Chip Huyen
  • Chips and Cheese
  • Christopher Butler
  • Colin Percival
  • Cool Infographics
  • Dan Sinker
  • David Walsh
  • Dmitry Dolzhenko
  • Dustin Curtis
  • eighty twenty
  • Elad Gil
  • Ellie Huxtable
  • Ethan Dalool
  • Ethan Marcotte
  • Exponential View
  • FAIL Blog
  • Founder Weekly
  • Geoffrey Huntley
  • Geoffrey Litt
  • Greg Mankiw
  • HeardThat Blog
  • Henrique Dias
  • Herman Martinus
  • Hypercritical
  • IEEE Spectrum
  • Investment Talk
  • Jaz
  • Jeff Geerling
  • Jonas Hietala
  • Josh Comeau
  • Lenny Rachitsky
  • Li Haoyi
  • Liz Danzico
  • Lou Plummer
  • Luke Wroblewski
  • Maggie Appleton
  • Matt Baer
  • Matt Stoller
  • Matthias Endler
  • Mert Bulan
  • Mind Matters
  • Mostly metrics
  • Naval Ravikant
  • News Letter
  • NextDraft
  • Non_Interactive
  • Not Boring
  • One Useful Thing
  • Phil Eaton
  • PostHog
  • Product Market Fit
  • Readwise
  • ReedyBear
  • Robert Heaton
  • Rohit Patel
  • Ruben Schade
  • Sage Economics
  • Sam Altman
  • Sam Rose
  • selfh.st
  • Shtetl-Optimized
  • Simon schreibt
  • Slashdot
  • Slava Akhmechet
  • Small Good Things
  • Steph Ango
  • Stephen Wolfram
  • Steve Blank
  • Taylor Troesh
  • Telegram Blog
  • The Macro Compass
  • The Pomp Letter
  • thesephist
  • Thinking Deep & Wide
  • Tim Kellogg
  • Understanding AI
  • Wes Kao
  • 英文媒体
  • 英文推特
  • 英文独立博客
©2026 搞英语 → 看世界 | Design: Newspaperly WordPress Theme