语音接口：新世纪的触摸屏

如何综合运用 AI 和信号处理功能跟踪声音的 DNA

初创企业 Yobe Inc.（总部设在马萨诸塞州波士顿）带着“会思考的信号处理”这一引人瞩目的品牌口号，打造了一款能够在任意听觉环境下准确跟踪语音 “DNA” 的软件，开辟了一个令人振奋的全新语音世界。在这个语音世界中，人类开始与 Alexa、Siri 和 Google 等虚拟助手进行交流，以简化人们的生活。

然而，Yobe 绝不仅仅是一家语音技术公司。虽然语音技术异军突起并迅速演变成为“杀手级应用”，但 Yobe 本质上是一家信号处理公司，人类声音只是众多听觉信号中的一种，可凭借其强大的技术分离、识别、跟踪及充分利用人类的声音。

Video Player is loading.

Current Time 0:00

Duration 0:00

Loaded: 0%

Stream Type LIVE

Remaining Time 0:00

Yobe 技术通过 AI 和信号处理功能来消除语音信号中的背景噪音。

“一年半以前，Amazon 打算进军语音市场，我们据此调整战略重心。适时将三大研究方向成功融为一体，充分利用这波语音海啸的趋势寻求发展。当今世界，使用互联设备的语音功能已司空见惯了。”

“新世纪的触摸屏”

之所以萌生将语音作为智能设备主要交互方式的想法，绝不仅仅是为了畅享免提指令所带来的便利性或易用性，而是语音技术更直观，

也更人性化。

“如果您问我‘为什么使用语音功能？’更确切地说，‘为什么要与设备进行语言交流？’我会反过来问您一个问题：‘两个有情感认知的人最自然的交流方式是什么？’答案当然是语言交流。” Sutton 指出。

“迄今为止，我们与机器进行交互的方式一直停留在人工模式，因为这些机器听不到我们的声音。自然的沟通方式应该是语言上的交流。这绝对算不上进化。只是返璞归真 — 这些基本能力必将产生深远的影响。”

“语音技术将成为新世纪的触摸屏。”

一系列重大声音技术突破

Sutton 之所以进行大胆预测，离不开他与 Yobe 联合创始人 S. Hamid Nawab 博士（首席科学家）和 James Fairey（高级顾问/音频创新负责人）在信号处理、人工智能和播音室方法领域实现的几项声音技术突破。

事实上，这些创新跨越长达 30 年，涵盖多个完全独立的研究领域 — Sutton 幽默感十足，认为这与西班牙语、意第绪语和瓦肯语有很多共同之处 — 不仅可以增加 Yobe“一夜成名”的故事深度，还能投射出辉煌、决心、好运和命运如何错综交织缔造出颠覆性的创新。

Nawab 博士的实验室是了解 Yobe 技术发展历程的良好开端。

在长达 30 年的非凡职业生涯中，Nawab 博士运用自身对于信号处理和人工智能技术的深刻理解（分别隶属于两个高度专业化的领域，极少有同一人同时掌握这两种技能）研究一系列不同信号，包括测量肌肉收缩过程中产生的电流的生物医学标记 EMG 信号（肌电图信号）。

Laptop with signal processing in MATLAB running, showing three time-domain voice signals. — Yobe 利用个人独有的生物标识符在嘈杂环境（例如人群）下辨别个人的声音。

Nawab 博士开发了独特的 AI 信号处理算法，用于分解和分离 EMG 信号，以便更有效地理解和测量信号与个体肌肉反应的关系。哪怕发出多个信号，Nawab 也能在嘈杂环境下有效分离个人 EMG 信号。

在 Nawab 推进开创性工作的同时，音乐混音业务和广播工作室制作终身成就大师 Fairey 也没有就此止步，而是积极设法解决困扰已久的疑惑：他的儿子患有自闭症，十分讨厌在封闭环境下听音乐。

Fairey 亲自操控声波，设法寻找有利的方式，以便为自己的儿子呈现音乐。

Sutton 回忆道，“一次偶然的机会，James 发现儿子对某种音频文件并不排斥。然而，生成的声音却闻所未闻；就像是在立体声的基础上增添了 3D 或高清音频效果。出乎意料的是，压缩时（有效减少文件数据量）发生了不可思议的事情，声音听上去甚至更棒。”

Fairey 不经意间发现了一种信号修复技术。处理信号时通常会损坏信号，而这也是导致声音问题的众多原因之一，例如 MP3 文件声音很小或空洞，还有语音处理解决方案听上去不自然。

“在收听经过积极信号处理的剪辑时，通常会听到对音质存在不利影响的失真效果。声音听起来不自然，因为基础信号遭到破坏，但其实理应保留。”

为自动完成工作室手动流程，必须广泛了解 Hamid Nawab 博士所研究的人工智能和信号处理领域。在积极围绕 Yobe 广播工作室技术和方法开发声音增强和信号修复IP后，Sutton 发现他们能够修复因过度信号处理而被“撕裂”的信号 — 这个问题一直困扰着 Nawab 博士及其他信号处理领域的科学家。

“有了我们的播音室信号修复技术，就使Yobe可以使用很多激进的人工智能信号处理算法— Nawab 博士的专长领域，而在后端解除这些问题，因为我们可以对信号进行后处理，恢复真实的声音，”Sutton 表示。“我们还能更深入地了解信号本身，识别信号 DNA，将其与其自身的独特信号源和意义联系起来。如果是支持语音功能的应用程序，我们可以将基本语音识别（计算机理解所说的内容）转变为说话人识别（计算机也能识别是谁在说话）模式。”

Dr. Nawab and Ken Sutton consult with a software developer at Yobe headquarters in Boston. — Nawab 博士和 Ken Sutton 咨询 Yobe 波士顿总部的软件开发人员。

Yobe 专有的信号处理、人工智能和播音室信号处理技术组合通过一个主推理模块进行监督，该模块按适当的措施逐个音频帧应用每一项处理方法。在这项技术的帮助下，Yobe 可改善支持语音功能的应用程序在嘈杂环境下的表现。我们在现实生活中的谈话环境是：开窗、环境声效及周边环境嘈杂。

换言之，也就是“鸡尾酒会现象”，组帧模式是信号处理领域面临的一大长期基本挑战：在现实世界声音画布的喧闹声中分离单个声音。

Sutton 说道：“无论过去还是现在，语音识别领域的大部分工作均在受控无菌环境中完成，这与人类身处的生活、工作、娱乐和谈话环境截然不同。”“我们开发出完全不同的方法，而且成效显著。”

也就是说，即使不提 Yobe 在“鸡尾酒会现象”方面的成就，Sutton 对此同样感到十分振奋。Sutton 十分尊重他人的劳动成果，毫不吝啬赞美之词，总是喜欢说：“我们想到一种独特的管理和处理方法。”

在这种方法的引导下，催生了新一代应用程序和功能，使人机对话更安全、更安心、更高效。同时，确保新世纪的触摸屏在现实世界中运行良好，而不仅仅局限于隔音室。

Yobe 三合一方法

Yobe 的突破性应用程序整合了以下三个不同的研究学科：

信号处理：识别、分离和跟踪个人声音 “DNA”
人工智能：训练应用程序识别个人声音 “DNA”
播音室处理技术：将因 AI 探索破坏的信号恢复到原始状态

主要应用

Yobe 初期商业产品发挥了基于语音的接口在嘈杂真实环境下的巨大潜力：

VISPR （范围检索语音识别系统）：一种主打“语音唤醒”的低功耗平台，用于在嘈杂和远场环境下进行语音激活设备配置文件管理
Vox.ē：一个由人工智能技术提供支持的信号处理平台，可面向一套语音相关应用程序进行配置

MATLAB 因子

为打造全面支持信号处理、人工智能和播音室处理技术的应用程序，必须营造特殊的开发环境，Yobe 在 MathWorks MATLAB^® 中就创建了这种环境。

Sutton 说道：“在这个过程中，MathWorks 一直是很棒的合作伙伴，在多种不同的方面为我们提供帮助。” “MATLAB 广泛应用于信号处理领域：在大学课程中占据主导地位，像 Hamid 这样的信号处理人员热衷设计。不仅可以简化解决方案的开发过程，还便于和有关领域的同事分享知识。我们可以描述自身行为，让人们了解相关信息。MATLAB 是让人们了解信息的关键所在。”

Nawab 博士表示，“MATLAB 非常适合多学科软件开发，使众多学科融为一体。”“我们可以逐个部分地运用 MATLAB 设计垂直开发解决方案，然后将这些部分组合在一起。从软件开发框架的角度而言，我们的解决方案与乐高积木极为类似。我们可以运用 MATLAB，根据解决方案所需的功能，以所需的方式在需要的位置轻松移动并放下这些积木。”

Sutton 说道：“身为公司 CEO，筹集资金和拓展业务是我工作职责的一部分。”“MATLAB 可为刚刚起步但尚未达到商业级的概念提供极佳的演示环境。我们可以使用 MATLAB 在各开发阶段进行科学演示，帮助我们分享进展并激发创造激情。这是我们推进这项事业的关键一步。”

语音接口：新世纪的触摸屏

如何综合运用 AI 和信号处理功能跟踪声音的 DNA

“新世纪的触摸屏”

一系列重大声音技术突破

Yobe 三合一方法

主要应用

MATLAB 因子

阅读其他故事

对抗儿童肺炎:

半机械人鼓手和人工智能团队创造了人类不可能创造的音乐:

识别分析杂草: