使用新系统,Casey Harrell 可以实时强调单词和语调,并唱歌。
凯西·哈雷尔(Casey Harrell)45岁时因肌萎缩侧索硬化症(ALS)失声。ALS又称卢格里格氏症,会侵蚀大脑和脊髓中控制肌肉的神经。其症状始于肌肉无力、无法控制的抽搐和吞咽困难。最终,患者会失去对舌头、喉咙和嘴唇肌肉的控制,从而失去说话的能力。
与瘫痪患者不同,哈雷尔仍然可以发出经验丰富的护理人员能够理解的声音,但在简单的对话中却无法理解。现在,得益于人工智能引导的大脑植入,他可以再次用电脑生成的、听起来像他自己的声音“说话”。
该系统由加州大学戴维斯分校的研究人员开发,在将他的大脑活动转化为连贯的语音时几乎没有可察觉的延迟。该系统并非产生单调的合成语音,而是能够检测语调(例如,是疑问句还是陈述句)并强调某个单词。它还能翻译大脑活动编码的无意义单词,例如“嗯”或“呃”,使生成的语音听起来自然。
“有了即时语音合成技术,神经义肢使用者将能够更好地参与对话。例如,他们可以打断别人说话,而别人不太可能无意中打断他们。”研究作者谢尔盖·斯塔维斯基在新闻稿中说道。
这项研究紧随另一项人工智能方法的成果,该方法能够在一秒钟内将瘫痪女性的想法解码成语音。之前的系统需要近半分钟的时间——这足以扰乱正常的对话。这两项研究共同展示了人工智能解读脑电信号并将其实时转换为语音的强大能力。
就哈雷尔而言,他的训练是在舒适的家中完成的。尽管该系统需要一些监控和调整,但它为为失去说话能力的人提供商业化产品铺平了道路。
马斯特里赫特大学的 Christian Herff(未参与此项研究)向《自然》杂志表示:“这是语音 BCI(脑机接口)领域的圣杯。”
倾听
长期以来,科学家一直在寻求帮助那些因受伤或疾病而失去说话能力的人恢复说话能力的方法。
一种策略是利用脑电活动。当我们准备说话时,大脑会指挥喉咙、舌头和嘴唇的肌肉形成声音和词语。通过聆听脑电活动,我们有可能解码想要表达的语音。算法将神经数据拼接在一起,生成文本或合成语音形式的单词和句子。
这个过程听起来可能很简单。但科学家们花了数年时间才找到最可靠的大脑区域来收集与语音相关的活动。即便如此,从思考到输出(无论是文本还是合成语音)的滞后时间仍然很长,足以让对话变得尴尬。
还有细微差别。说话不仅仅是说出听得见的句子。说话的方式也很重要。语调告诉我们说话者是在提问、表达需求、开玩笑还是讽刺。对单个词语的强调可以凸显说话者的心态和意图。这些方面对于声调语言(例如中文)尤其重要,因为同一个“词”的声调或音高变化可能会产生截然不同的含义。(例如,“妈”的意思可能是妈妈、麻木、马或咒骂,具体取决于语调。)
跟我说话
哈雷尔参加了“BrainGate2”临床试验,这是一个长期项目,旨在利用脑植入物恢复患者失去的能力。随着ALS症状的加重,他参加了这项试验。虽然他还能发声,但他的讲话却难以理解,需要护理团队的专业倾听者进行翻译。这是他主要的沟通方式。他还必须学会放慢语速,以便让残留的言语更容易被理解。
五年前,哈雷尔的大脑左侧中央前回被植入了四个 64 个微电极,该区域控制多种大脑功能,包括协调语言。
“我们记录的是大脑中试图向肌肉发送指令的部分。我们基本上是在倾听这些指令,并将这些大脑活动模式转化为音素——比如音节或语音单位——然后是他们试图说的单词,”斯塔维斯基当时说道。
只需两次训练,哈雷尔就能说出12.5万个单词——这个词汇量足以满足日常使用。系统将他的神经活动转化为语音合成器,模仿他的声音。经过更多训练后,植入物在哈雷尔的日常生活中达到了97.5%的准确率。
“我们第一次尝试这个系统时,当他想说的单词正确地出现在屏幕上时,他高兴得哭了。我们都这么觉得,”斯塔维斯基说。
在这项新研究中,团队力求使生成的语音更加自然,延迟更少,更具个性化。实时语音合成最难的部分之一是无法确定用户何时以及如何说话,或者他们想要的语调。“我很好”的含义会因语调的不同而大相径庭。
当哈雷尔试图说出屏幕上显示的句子时,团队捕捉了他的大脑活动。这些电脉冲经过滤波,以消除一毫秒为单位的噪音,然后输入解码器。团队写道,就像罗塞塔石碑一样,该算法将特定的神经特征映射到单词和音调上,并通过语音合成器以仅25毫秒的延迟(大约相当于人听到自己声音的时间)将其回放给哈雷尔。
人工智能并非解码音素或单词,而是每 10 毫秒捕捉一次 Harrell 发出声音的意图,最终让他能够说出字典里没有的单词,比如“嗯”或“呃”。他可以拼写单词,并回答开放式问题,告诉研究人员合成的声音让他“开心”,感觉就像“他真实的声音”。
研究团队还记录了哈雷尔尝试以陈述或疑问形式说出同一组句子时的大脑活动,后者的音调会提高。当句子以疑问形式说出时,所有四个电极阵列都记录了活动模式的神经指纹。
经过训练的系统还能检测到重音。哈雷尔被要求对“我从没说过她偷了我的钱”这句话中的每个单词逐一进行重读,这句话可能包含多种含义。在说出重读的单词之前,他的大脑活动活跃起来,算法捕捉到了这些活动,并用它来引导合成语音。在另一项测试中,当他尝试唱不同的旋律时,系统捕捉到了多个音调。
提高你的声音
人工智能并非完美。志愿者大约有60%的时间能够理解输出内容——这与哈雷尔目前使用的近乎完美的“脑转文本”系统相去甚远。但新的人工智能赋予了合成语音以个性,而合成语音通常只会产生单调的声音。实时解读语音还能让人们在对话中打断或提出反对意见,让体验更加自然。
“我们并不总是用语言来表达我们想要什么。我们会用感叹词。我们还有其他词汇中没有的富有表现力的声音,”研究作者 Maitreyee Wairagkar告诉《自然》杂志。
由于该人工智能是基于声音而非英语词汇进行训练的,因此它可以适用于其他语言,尤其是像中文这样的声调语言。该团队还希望通过在因中风或神经退行性疾病而失去语言能力的患者身上植入更多电极来提高系统的准确性。
研究作者戴维·布兰德曼表示:“这项研究的结果为那些想说话但不能说话的人们带来了希望……这种技术可能会改变瘫痪患者的生活。”
文章“一名患有 ALS 的男子借助脑植入物和人工智能合成语音能够再次说话和唱歌”最先出现在SingularityHub上。