配音是一个利润丰厚的市场,Verified Market Research 预测,到 2027 年,仅电影配音服务每年就可以产生 36 亿美元的收入。但这也是一个费力且成本高昂的过程。平均而言,五分钟的旁白需要一个小时的录音室时间;即使是一个简单的视频,一个计算器也将价格定为每分钟 75 美元。
人工智能在这一领域的承诺,特别是自然语言处理,正在通过跨多种语言创建听起来像人类的配音来加快这项任务。一家追求这一目标的英国初创公司 Papercup 声称其技术正被媒体巨头 Sky News、Discovery 和 Business Insider 采用,并被用于翻译 Bob Ross 的标志性节目T he Joy of Painting的 30 季。
首席执行官 Jesse Shemen 估计,在过去 12 个月中,有超过 3 亿人观看了 Papercup 翻译的视频。
“本地化和翻译的需求与满足需求的能力之间存在严重的不匹配,”Shemen 说。 “喜欢 [Netflix 的] ‘Squid Game’ 的节目验证了这样一个论点,即人们将在任何地方观看以任何语言创建的内容,只要它具有娱乐性和趣味性。这就是为什么该行业如此准备好增长的原因。”
也就是说,Papercup 今天宣布它在由 Octopus Ventures 牵头的 A 轮融资中筹集了 2000 万美元,参与方包括 Local Globe、Sands Capital、Sky 和 Guardian Media Ventures、Entrepreneur First 和 BDMI。 Shemen 通过电子邮件告诉 TechCrunch,这家总部位于伦敦的公司迄今筹集的资金总额约为 3050 万美元,其中大部分将用于围绕富有表现力的 AI 生成声音的研究和扩大 Papercup 对外语的支持。
Papercup 由 Shemen 和 Jiameng Gao 于 2017 年创立,提供一种人工智能配音解决方案,可识别目标电影或节目中的人声,并以新语言生成配音。视频内容制作者上传他们的视频,指定一种语言,等待 Papercup 的母语团队对音频进行质量检查,然后接收带有合成画外音的翻译。
Shemen 声称 Papercup 的平台可以以手动方法无法比拟的规模和速度生成配音。除了为客户创建的自定义翻译之外,Papercup 还提供具有“真实”音调和情感的声音目录。据Shemen称,其中许多已被用于内部通信、公司公告和教育材料中,除了电影和电视。
“我们的‘人在循环’方法意味着人工翻译提供质量控制和保证准确性,但与提供整个翻译相比,他们需要更少的动手操作,这意味着他们可以更快地完成更多翻译,”Shemen 说. “人们在大流行期间观看了更多视频内容,这大大增加了对我们服务的需求。”
人工智能生成的“合成媒体”市场正在增长。 Synthesia、Respeecher、Resemble AI 和 Deepdub 等专注于视频和语音的公司已经推出了用于节目和电影的人工智能配音工具。除了初创公司,英伟达一直在开发技术,以改变视频的方式,将演员的面部表情与新语言相匹配。
但可能会有不利之处。正如《华盛顿邮报》的Steven Zeitchik 所指出的,不注重细节的 AI 配音内容可能会失去其“本土风味”。一种语言的表达在另一种语言中可能并不意味着相同的东西。此外,人工智能配音会引发伦理问题,例如是否要重现已故人的声音。
同样模糊的是从工作演员的表演中产生的声音的后果。 《华尔街日报》报道称,不止一家公司试图在私人演示中复制摩根弗里曼的声音,而且工作室越来越多地在合同中添加条款,以寻求“在必要时”使用合成声音代替表演者——例如调整后期制作时的对话。
Shemen 将 Papercup 定位为一个基本中立的平台,尽管它会监控其平台的使用是否存在潜在的滥用行为(例如制造deepfakes )。 Shemen 透露,实时翻译新闻和体育赛事等内容的工作正在进行中,并且能够更精细地控制和改进其人工智能生成的声音的表达能力。
“[配音]的价值很明确:人们在观看非母语的短视频时保留了 41% 的信息——当有字幕时,他们保留了 50%,当通过 Papercup 配音时,他们保留了 70%。仅字幕一项就提高了 40%,”Shemen 说。 “凭借真正富有情感的跨语言 AI 配音,Papercup 可以处理各种形式的内容,让每个人都能更轻松地访问和享受视频和音频。”
Papercup 目前在伦敦拥有 38 名员工,并在三大洲设有翻译网络。该公司预计到今年年底这一数字将翻一番。
原文: https://techcrunch.com/2022/06/09/papercup-raises-20m-for-ai-that-automatically-dubs-videos/