语音接口:新世纪的触摸屏
如何综合运用 AI 和信号处理功能跟踪声音的 DNA
初创企业 Yobe Inc.(总部设在马萨诸塞州波士顿)带着“会思考的信号处理”这一引人瞩目的品牌口号,打造了一款能够在任意听觉环境下准确跟踪语音 “DNA” 的软件,开辟了一个令人振奋的全新语音世界。在这个语音世界中,人类开始与 Alexa、Siri 和 Google 等虚拟助手进行交流,以简化人们的生活。
然而,Yobe 绝不仅仅是一家语音技术公司。虽然语音技术异军突起并迅速演变成为“杀手级应用”,但 Yobe 本质上是一家信号处理公司,人类声音只是众多听觉信号中的一种,可凭借其强大的技术分离、识别、跟踪及充分利用人类的声音。
“新世纪的触摸屏”
之所以萌生将语音作为智能设备主要交互方式的想法,绝不仅仅是为了畅享免提指令所带来的便利性或易用性,而是语音技术更直观,
也更人性化。
“如果您问我‘为什么使用语音功能?’更确切地说,‘为什么要与设备进行语言交流?’我会反过来问您一个问题:‘两个有情感认知的人最自然的交流方式是什么?’答案当然是语言交流。” Sutton 指出。
“迄今为止,我们与机器进行交互的方式一直停留在人工模式,因为这些机器听不到我们的声音。自然的沟通方式应该是语言上的交流。这绝对算不上进化。只是返璞归真 — 这些基本能力必将产生深远的影响。”
“语音技术将成为新世纪的触摸屏。”
一系列重大声音技术突破
Sutton 之所以进行大胆预测,离不开他与 Yobe 联合创始人 S. Hamid Nawab 博士(首席科学家)和 James Fairey(高级顾问/音频创新负责人)在信号处理、人工智能和播音室方法领域实现的几项声音技术突破。
事实上,这些创新跨越长达 30 年,涵盖多个完全独立的研究领域 — Sutton 幽默感十足,认为这与西班牙语、意第绪语和瓦肯语有很多共同之处 — 不仅可以增加 Yobe“一夜成名”的故事深度,还能投射出辉煌、决心、好运和命运如何错综交织缔造出颠覆性的创新。
Nawab 博士的实验室是了解 Yobe 技术发展历程的良好开端。
在长达 30 年的非凡职业生涯中,Nawab 博士运用自身对于信号处理和人工智能技术的深刻理解(分别隶属于两个高度专业化的领域,极少有同一人同时掌握这两种技能)研究一系列不同信号,包括测量肌肉收缩过程中产生的电流的生物医学标记 EMG 信号(肌电图信号)。
Nawab 博士开发了独特的 AI 信号处理算法,用于分解和分离 EMG 信号,以便更有效地理解和测量信号与个体肌肉反应的关系。哪怕发出多个信号,Nawab 也能在嘈杂环境下有效分离个人 EMG 信号。
在 Nawab 推进开创性工作的同时,音乐混音业务和广播工作室制作终身成就大师 Fairey 也没有就此止步,而是积极设法解决困扰已久的疑惑:他的儿子患有自闭症,十分讨厌在封闭环境下听音乐。
Fairey 亲自操控声波,设法寻找有利的方式,以便为自己的儿子呈现音乐。
Sutton 回忆道,“一次偶然的机会,James 发现儿子对某种音频文件并不排斥。然而,生成的声音却闻所未闻;就像是在立体声的基础上增添了 3D 或高清音频效果。出乎意料的是,压缩时(有效减少文件数据量)发生了不可思议的事情,声音听上去甚至更棒。”
Fairey 不经意间发现了一种信号修复技术。处理信号时通常会损坏信号,而这也是导致声音问题的众多原因之一,例如 MP3 文件声音很小或空洞,还有语音处理解决方案听上去不自然。
为自动完成工作室手动流程,必须广泛了解 Hamid Nawab 博士所研究的人工智能和信号处理领域。在积极围绕 Yobe 广播工作室技术和方法开发声音增强和信号修复IP后,Sutton 发现他们能够修复因过度信号处理而被“撕裂”的信号 — 这个问题一直困扰着 Nawab 博士及其他信号处理领域的科学家。
“有了我们的播音室信号修复技术,就使Yobe可以使用很多激进的人工智能信号处理算法— Nawab 博士的专长领域,而在后端解除这些问题,因为我们可以对信号进行后处理,恢复真实的声音,”Sutton 表示。“我们还能更深入地了解信号本身,识别信号 DNA,将其与其自身的独特信号源和意义联系起来。如果是支持语音功能的应用程序,我们可以将基本语音识别(计算机理解所说的内容)转变为说话人识别(计算机也能识别是谁在说话)模式。”
Yobe 专有的信号处理、人工智能和播音室信号处理技术组合通过一个主推理模块进行监督,该模块按适当的措施逐个音频帧应用每一项处理方法。在这项技术的帮助下,Yobe 可改善支持语音功能的应用程序在嘈杂环境下的表现。我们在现实生活中的谈话环境是:开窗、环境声效及周边环境嘈杂。
换言之,也就是“鸡尾酒会现象”,组帧模式是信号处理领域面临的一大长期基本挑战:在现实世界声音画布的喧闹声中分离单个声音。
Sutton 说道:“无论过去还是现在,语音识别领域的大部分工作均在受控无菌环境中完成,这与人类身处的生活、工作、娱乐和谈话环境截然不同。”“我们开发出完全不同的方法,而且成效显著。”
也就是说,即使不提 Yobe 在“鸡尾酒会现象”方面的成就,Sutton 对此同样感到十分振奋。Sutton 十分尊重他人的劳动成果,毫不吝啬赞美之词,总是喜欢说:“我们想到一种独特的管理和处理方法。”
在这种方法的引导下,催生了新一代应用程序和功能,使人机对话更安全、更安心、更高效。同时,确保新世纪的触摸屏在现实世界中运行良好,而不仅仅局限于隔音室。
Yobe 三合一方法
Yobe 的突破性应用程序整合了以下三个不同的研究学科:
- 信号处理:识别、分离和跟踪个人声音 “DNA”
- 人工智能:训练应用程序识别个人声音 “DNA”
- 播音室处理技术:将因 AI 探索破坏的信号恢复到原始状态
主要应用
Yobe 初期商业产品发挥了基于语音的接口在嘈杂真实环境下的巨大潜力:
- VISPR (范围检索语音识别系统):一种主打“语音唤醒”的低功耗平台,用于在嘈杂和远场环境下进行语音激活设备配置文件管理
- Vox.ē: 一个由人工智能技术提供支持的信号处理平台,可面向一套语音相关应用程序进行配置
MATLAB 因子
为打造全面支持信号处理、人工智能和播音室处理技术的应用程序,必须营造特殊的开发环境,Yobe 在 MathWorks MATLAB® 中就创建了这种环境。
Sutton 说道:“在这个过程中,MathWorks 一直是很棒的合作伙伴,在多种不同的方面为我们提供帮助。” “MATLAB 广泛应用于信号处理领域:在大学课程中占据主导地位,像 Hamid 这样的信号处理人员热衷设计。不仅可以简化解决方案的开发过程,还便于和有关领域的同事分享知识。我们可以描述自身行为,让人们了解相关信息。MATLAB 是让人们了解信息的关键所在。”
Nawab 博士表示,“MATLAB 非常适合多学科软件开发,使众多学科融为一体。”“我们可以逐个部分地运用 MATLAB 设计垂直开发解决方案,然后将这些部分组合在一起。从软件开发框架的角度而言,我们的解决方案与乐高积木极为类似。我们可以运用 MATLAB,根据解决方案所需的功能,以所需的方式在需要的位置轻松移动并放下这些积木。”
Sutton 说道:“身为公司 CEO,筹集资金和拓展业务是我工作职责的一部分。”“MATLAB 可为刚刚起步但尚未达到商业级的概念提供极佳的演示环境。我们可以使用 MATLAB 在各开发阶段进行科学演示,帮助我们分享进展并激发创造激情。这是我们推进这项事业的关键一步。”