Skip to content

搞英语 → 看世界

翻译英文优质信息和名人推特

Menu
  • 首页
  • 作者列表
  • 独立博客
  • 专业媒体
  • 名人推特
  • 邮件列表
  • 关于本站
Menu

人工智能已经比我们更擅长唇读了

Posted on 2022-09-30

《他们不会变老》是一部 2018 年纪录片,讲述了英国和新西兰士兵在第一次世界大战中的生活和愿望,由著名的指环王导演彼得·杰克逊执导,其拥有一百多年历史的无声镜头通过两种颜色进行了现代化改造以及为以前不存在的对话录制新音频。为了了解档案录像中的人们在说什么,杰克逊聘请了一个法医唇读师团队来猜测他们录制的话语。 据报道,“唇读机非常精确,甚至能够分辨出说话人的方言和口音。”

“这些家伙不是生活在一个黑白的、寂静的世界里,这部电影不是关于战争的; “这是关于士兵在战争中的经历,”杰克逊在 2018 年告诉每日哨兵报。“我希望观众尽可能近距离地看到士兵所看到的,以及他们是如何看到和听到的。”

鉴于 2009 年的一项研究发现,大多数人只能以大约 20% 的准确率阅读唇语,而 CDC 的儿童听力损失家长指南估计,“一个好的语音阅读器可能只能看到 4 到 5一个 12 个单词的句子中的单词。”同样,俄克拉荷马大学 2011 年的一项研究表明,其测试对象的准确率只有 10% 左右。

“任何获得 30% 正确率的CUNY 唇读分数的人都被认为是异常值,他们的 T 分数接近 80,是平均值标准差的三倍。唇读识别准确度得分为 45% 的正确率比平均值高出 5 个标准差,” 2011 年的研究总结道。 “这些结果量化了仅视觉句子识别的固有难度。”

对于人类来说,唇读很像在大联盟中的击球——即使十次中只有三次也能始终如一地做对,你将成为有史以来最好的比赛之一。对于现代机器学习系统,唇读更像是下围棋——在创造和奴役你的肉袋上一遍又一遍地殴打——今天最先进的系统实现了超过 95% 的句子级单词准确度.随着它们的不断改进,我们很快就会看到,从无声电影处理和公共无声听写到生物特征识别的任务都由人工智能系统处理。

背景很重要

现在,人们会认为人类现在会更擅长唇读,因为我们从西班牙本笃会修士佩德罗·庞塞·德莱昂 (Pedro Ponce de León) 时代就开始正式练习这种技术,他被认为是 16 世纪早期这一想法的先驱。 .

这是一座雕像

维基百科/公共领域

“我们通常认为语音就是我们所听到的,但语音的可听部分只是其中的一部分,”唇读应用程序开发商Liopa的首席技术官 Fabian Campbell-West 博士通过电子邮件告诉 Engadget。 “在我们看来,一个人的言语可以分为视觉和听觉单元。视觉单位,称为视位,被视为嘴唇运动。被称为音素的可听单元以声波的形式被听到。”

“当我们彼此交流时,通常更喜欢面对面交流,因为我们对视觉和听觉信息都很敏感,”他继续说道。 “然而,音素的数量大约是视位的三倍。换句话说,仅嘴唇运动所包含的信息不如语音的可听部分那么多。”

“除了嘴唇,有时还有舌头和牙齿之外,大多数唇读动作都是潜伏的,并且很难在没有上下文的情况下消除歧义,”当时的牛津大学研究员和 LipNet 开发人员 Yannis Assael在 2016 年指出,他引用了费舍尔的早期研究。这些同音词是Bad Lip Reading成功的秘诀。

疯狂的是,Bad Lip Reading 通常适用于任何口语,无论是像英语这样的音调,还是像越南语这样的音调。 “语言确实会产生影响,尤其是那些具有在其他语言中不常见的独特声音的语言,”坎贝尔-韦斯特说。 “每种语言都有语法和发音规则,这些规则会影响它的解释方式。从广义上讲,理解的方法是相同的。”

“声调语言很有趣,因为它们使用具有不同语调(如音高)变化的同一个词来传达意义,”他继续说道。 “直觉上这会给唇读带来挑战,但研究表明,以这种方式解释语音仍然是可能的。部分原因是改变音调需要可以在视觉上表现出来的生理变化。唇读也会随着时间的推移而完成,因此以前的视位、单词和短语的上下文可以帮助理解。”

“重要的是你对语言的了解程度,因为你基本上是在限制你可以搜索的歧义集合,”Adrian KC Lee,ScD,言语和听力科学系教授兼系主任,言语和华盛顿大学的听力科学中心告诉 Engadget。 “说,‘冷;和“坚持”,对吗?如果你只是坐在镜子前,你无法真正分辨出区别。所以从物理的角度来看,这是不可能的,但如果我拿着东西而不是谈论天气,你,根据上下文,已经知道了。”

除了更大的转变的一般背景之外,人们在说话时所传达的大部分内容都是非语言的。 Campbell-West 说:“当您既能看到对方又能听到对方的声音时,沟通通常会更容易,但最近视频通话的激增向我们表明,不仅仅是看到对方,还有更多细微差别。构建智能自动化系统以理解人类交流的潜力比目前可能的要大得多。”

语言上,只见树木不见森林

虽然人类和机器唇读者具有相同的总体最终目标,但它们各自过程的目标却大相径庭。正如伊朗科技大学的一组研究人员在 2021 年所说:“过去几年,人们提出了几种唇读方法,但这些方法与唇读方法之间存在重要区别在 AI 中建议。机器唇读所提出的方法的目的是将视觉信息转换为单词……但是,人类唇读的主要目的是理解语音的含义,而不是理解每一个单词。”

简而言之,“人类通常很懒惰并且依赖上下文,因为我们有很多先验知识,”Lee 解释说。正是这种过程中的不和谐——语言相当于只见树木不见森林——对自动读唇的目标提出了如此独特的挑战。

“唇读研究的一个主要障碍是缺乏标准和实用的数据库,”郝说。 “数据库的大小和质量决定了这个模型的训练效果,一个完善的数据库也将促进唇读任务中越来越复杂和困难的问题的发现和解决。”其他障碍可能包括环境因素,如光线不足和背景变化,这可能会混淆机器视觉系统,因为说话者的肤色、头部的旋转角度(改变嘴巴的视角)和皱纹的模糊存在也会造成差异和胡须。

Assael 指出,“机器唇读很困难,因为它需要从视频中提取时空特征(因为位置和动作都很重要)。”然而,正如新疆大学郝明峰在 2020年唇读技术调查中所解释的那样,“动作识别属于视频分类,可以通过单张图像进行分类。”所以,“而唇读往往需要从单个图像中提取与语音内容相关的特征,并分析整个图像序列之间的时间关系来推断内容。”这是一个需要自然语言处理和机器视觉能力的障碍克服。

首字母缩略词汤

今天,语音识别分为三种类型,具体取决于输入源。我们今天谈论的内容属于视觉语音识别 (VSR) 研究——即仅使用视觉手段来理解所传达的内容。相反,有完全依赖音频的自动语音识别(ASR),即“Hey Siri”和视听自动语音识别(AV-ASR),它在猜测中结合了音频和视觉线索。

“自动语音识别 (ASR) 的研究非常成熟,与研究开始时可能的情况相比,目前的最先进技术是无法识别的,”Campbell-West 说。 “视觉语音识别 (VSR) 仍处于开发的相对早期阶段,系统将继续成熟。” Liopa 的SRAVI 应用程序使医院患者能够进行交流,无论他们是否可以主动表达,它依赖于后一种方法。 “这可以使用两种信息模式来帮助克服另一种信息的不足,”他说。 “未来绝对会有系统使用额外的线索来支持理解。”

“VSR 实施之间存在一些差异,”Campbell-West 继续说道。 “从技术角度来看,模型构建方式的架构是不同的……深度学习问题可以从两个不同的角度来解决。第一个是寻找可能的最佳架构,第二个是使用大量数据来覆盖尽可能多的变化。这两种方法都很重要,可以结合起来。”

在 VSR 研究的早期,像AVLetters这样的数据集必须手动标记和分类,这是一种劳动密集型的限制,严重限制了可用于训练机器学习模型的数据量。因此,最初的研究首先集中在绝对基础——字母和数字级别的识别上——最终发展到单词和短语级别的识别,句子级别是当今最先进的,旨在理解人类语音在更自然的环境和情况下。

近年来,更先进的深度学习技术的兴起,本质上是在整个互联网上训练模型,以及在线发布的社交和视觉媒体的大规模扩张,使得研究人员能够生成更大的数据集,比如Oxford-BBC Lip Reading Sentences 2 (LRS2),它基于来自各种 BBC 节目的数千条口语台词。 LRS3-TED 从各种 TED 程序中收集了 150,000 个句子,而 LSVSR(大规模视觉语音识别)数据库是目前最大的数据库之一,提供140,000 小时的音频片段,其中包含 2,934,899 个语音语句和超过 127,000 个单词。

而且不仅仅是英语:许多语言都存在类似的数据集,例如HIT-AVDB-II ,它基于一组中国诗歌,或 IV2,一个由 300 人组成的法语数据库,说出相同的 15 个短语。俄语、西班牙语和捷克语应用程序也存在类似的集合。

展望未来

Campbell-West 说,VSR 的未来最终可能看起来很像 ASR 的过去,“采用 VSR 存在许多障碍,就像 ASR 在过去几十年的发展过程中一样。”当然,隐私是一个大问题。 Campbell-West 说,尽管年轻一代不太愿意在网上记录他们的生活,但“人们现在比以前更加意识到隐私是理所当然的。人们可能会容忍麦克风,但不能容忍摄像头。”

无论如何,Campbell-West 仍然对 VSR 的潜在未来应用感到兴奋,例如高保真自动字幕。 “我设想了一个实时字幕系统,这样你在与某人交谈时就可以在眼镜中获得实时字幕,”Campbell-West 说。 “对于任何有听力障碍的人来说,这可能是一个改变生活的应用程序,但即使对于嘈杂环境中的一般用途,它也可能很有用。”

“在某些情况下,噪音会使 ASR 变得非常困难,但语音控制是有利的,例如在汽车中,”他继续说道。 “VSR 可以帮助这些系统变得更好,对驾驶员和乘客来说更安全。”

另一方面,在 UW 的实验室广泛研究脑机接口技术的 Lee 认为,可穿戴文本显示器更多地是一种“权宜之计”,直到 BCI 技术进一步成熟。 “我们不一定想将 BCI 推销到‘好吧,我们将在不大声说话的情况下进行脑对脑交流’的地步,”Lee 说。 “在十年左右的时间里,你肯定会发现助听器中利用了生物信号。只要 [设备] 看到你的眼睛扫视的地方,就可能会给它一个线索,让你知道在哪里集中听。”

“我不敢说‘哦,是的,我们将获得脑控助听器,”李承认。 “我认为这是可行的,但你知道,这需要时间。”

原文: https://www.engadget.com/ai-is-already-better-at-lip-reading-that-we-are-183016968.html?src=rss

本站文章系自动翻译,站长会周期检查,如果有不当内容,请点此留言,非常感谢。
  • Abhinav
  • Abigail Pain
  • Adam Fortuna
  • Alberto Gallego
  • Alex Wlchan
  • Alin Panaitiu
  • Anil Dash
  • Answer.AI
  • Arne Bahlo
  • Ben Carlson
  • Ben Kuhn
  • Bert Hubert
  • Big Technology
  • Bits about Money
  • Brandon Skerritt
  • Brian Krebs
  • ByteByteGo
  • Chip Huyen
  • Chips and Cheese
  • Christopher Butler
  • Colin Percival
  • Cool Infographics
  • Dan Sinker
  • David Walsh
  • Dmitry Dolzhenko
  • Dustin Curtis
  • eighty twenty
  • Elad Gil
  • Ellie Huxtable
  • Ethan Dalool
  • Ethan Marcotte
  • Exponential View
  • FAIL Blog
  • Founder Weekly
  • Geoffrey Huntley
  • Geoffrey Litt
  • Greg Mankiw
  • HeardThat Blog
  • Henrique Dias
  • Herman Martinus
  • Hypercritical
  • IEEE Spectrum
  • Investment Talk
  • Jaz
  • Jeff Geerling
  • Jonas Hietala
  • Josh Comeau
  • Lenny Rachitsky
  • Li Haoyi
  • Liz Danzico
  • Lou Plummer
  • Luke Wroblewski
  • Maggie Appleton
  • Matt Baer
  • Matt Stoller
  • Matthias Endler
  • Mert Bulan
  • Mind Matters
  • Mostly metrics
  • Naval Ravikant
  • News Letter
  • NextDraft
  • Non_Interactive
  • Not Boring
  • One Useful Thing
  • Phil Eaton
  • PostHog
  • Product Market Fit
  • Readwise
  • ReedyBear
  • Robert Heaton
  • Rohit Patel
  • Ruben Schade
  • Sage Economics
  • Sam Altman
  • Sam Rose
  • selfh.st
  • Shtetl-Optimized
  • Simon schreibt
  • Slashdot
  • Small Good Things
  • Steph Ango
  • Stephen Wolfram
  • Steve Blank
  • Taylor Troesh
  • Telegram Blog
  • The Macro Compass
  • The Pomp Letter
  • thesephist
  • Thinking Deep & Wide
  • Tim Kellogg
  • Understanding AI
  • Wes Kao
  • 英文媒体
  • 英文推特
  • 英文独立博客
©2026 搞英语 → 看世界 | Design: Newspaperly WordPress Theme