产品和服务

用于音频和语音处理的即用型 AI

使用预训练的 AI 处理和分析音频及语音信号

Audio Toolbox 以及 Audio Toolbox Interface for SpeechBrain and Torchaudio Libraries 支持使用预训练的 AI 模型对音频和语音信号执行高级信号处理与分析任务。

通过单独的函数调用,您无需任何深度学习专业知识即可:

  • 使用语音转文本 (STT) 管道通过自动语音识别 (ASR) 转录语音
  • 使用文本转语音 (TTS) 管道合成语音
  • 通过语音活动检测 (VAD) 检测语音、识别口语语言并对声音进行分类
  • 通过发言人识别深度学习模型和机器学习管道注册和识别正在说话的人
  • 鸡尾酒会问题中分离语音源,并对语音信号进行增强和去噪
  • 估计音乐音高,并从音频、语音和音乐信号中提取嵌入内容

这些函数使用预训练的机器学习模型和深度学习模型,并且通过 MATLAB、Python® 和 PyTorch® 的组合来运行。

象形图:描绘耳麦内部使用网络实现语音和文本互译。

适用于 SpeechBrain 和 Torchaudio 库的 Audio Toolbox 接口

Audio Toolbox Interface for SpeechBrain and Torchaudio Libraries 支持将一系列预训练的 AI 模型与 Audio Toolbox 的信号处理和信号分析函数结合使用。

该接口自动安装 Python 和 PyTorch,并从 SpeechBrain 和 Torchaudio 库下载选定深度学习模型。在安装完成后,它通过在底层使用本地 AI 模型运行以下函数:

  • speech2text 接受 speechClient 对象,模型设置为 emformerwhisper,此外还有本地 wav2vec 模型以及 GoogleIBMMicrosoftAmazon 等云服务选项。使用 whisper 还需要单独下载模型权重,如下载 Whisper 语音到文本模型中所述。
  • text2speech 接受 speechClient 对象,其模型设置为 hifigan,此外还有 GoogleIBMMicrosoftAmazon 等云服务选项。

speech2texttext2speech 函数接受并返回文本字符串和音频采样。这些函数不需要您编写任何信号预处理、特征提取、模型预测和输出后处理的代码。

具有模型选项列表的语音客户端对象。
在翻译模式下使用具有非默认 speechClient 对象的 speech2text 函数的代码。

使用 Whisper 翻译和转录多语言语音

使用 text2speech 函数从文本生成合成语音的代码。

使用本地模型从文本合成语音

信号标注器界面,其中已标注的语音信号上叠加了波形图,并标识出每个口语单词及其对应的文本转录。

在信号标注器中使用语音到文本标注语音录音

使用具有附加函数的即用型 AI 处理语音和音频

Audio Toolbox 包括附加函数,例如 classifySoundseparateSpeakersenhanceSpeechdetectspeechnnpitchnnidentifyLanguage。借助这些函数,您可以使用高级深度学习模型处理和分析音频信号,而无需 AI 专业知识。这些模型不需要适用于 Audio Toolbox Interface for SpeechBrain and Torchaudio Libraries。

具有标记段的声音信号图,突出特定声音类。

使用 classifySound 进行声音分类

四个图:原始混合音频、两个分离的语音分量以及振幅可忽略的残差信号。

使用 separateSpeakers 进行语音源分离

2×2 绘图网格,显示两个不同信号和时频频谱图,突出显示原始音频录制与其增强版本之间的差异。

使用 enhanceSpeech 进行语音增强

结合使用 MATLAB 与 PyTorch 进行深度学习模型开发

熟悉深度学习的 MATLAB 和 PyTorch 用户可以结合使用这两种语言来开发和训练 AI 模型,包括通过协作执行和模型交换工作流。

了解更多: