用于音频和语音处理的即用型 AI

使用预训练的 AI 处理和分析音频及语音信号

下载支持包

Audio Toolbox 以及 Audio Toolbox Interface for SpeechBrain and Torchaudio Libraries 支持使用预训练的 AI 模型对音频和语音信号执行高级信号处理与分析任务。

通过单独的函数调用，您无需任何深度学习专业知识即可：

使用语音转文本 (STT) 管道通过自动语音识别 (ASR) 转录语音
使用文本转语音 (TTS) 管道合成语音
通过语音活动检测 (VAD) 检测语音、识别口语语言并对声音进行分类
通过发言人识别深度学习模型和机器学习管道注册和识别正在说话的人
在鸡尾酒会问题中分离语音源，并对语音信号进行增强和去噪
估计音乐音高，并从音频、语音和音乐信号中提取嵌入内容

这些函数使用预训练的机器学习模型和深度学习模型，并且通过 MATLAB、Python^® 和 PyTorch^® 的组合来运行。

适用于 SpeechBrain 和 Torchaudio 库的 Audio Toolbox 接口

Audio Toolbox Interface for SpeechBrain and Torchaudio Libraries 支持将一系列预训练的 AI 模型与 Audio Toolbox 的信号处理和信号分析函数结合使用。

该接口自动安装 Python 和 PyTorch，并从 SpeechBrain 和 Torchaudio 库下载选定深度学习模型。在安装完成后，它通过在底层使用本地 AI 模型运行以下函数：

speech2text 接受 speechClient 对象，模型设置为 emformer 或 whisper，此外还有本地 wav2vec 模型以及 Google、IBM、Microsoft 和 Amazon 等云服务选项。使用 whisper 还需要单独下载模型权重，如下载 Whisper 语音到文本模型中所述。
text2speech 接受 speechClient 对象，其模型设置为 hifigan，此外还有 Google、IBM、Microsoft 和 Amazon 等云服务选项。

speech2text 和 text2speech 函数接受并返回文本字符串和音频采样。这些函数不需要您编写任何信号预处理、特征提取、模型预测和输出后处理的代码。

在翻译模式下使用具有非默认 speechClient 对象的 speech2text 函数的代码。

使用 Whisper 翻译和转录多语言语音

文档

使用本地模型从文本合成语音

文档

信号标注器界面，其中已标注的语音信号上叠加了波形图，并标识出每个口语单词及其对应的文本转录。

在信号标注器中使用语音到文本标注语音录音

文档

使用具有附加函数的即用型 AI 处理语音和音频

Audio Toolbox 包括附加函数，例如 classifySound、separateSpeakers、enhanceSpeech、detectspeechnn、pitchnn 和 identifyLanguage。借助这些函数，您可以使用高级深度学习模型处理和分析音频信号，而无需 AI 专业知识。这些模型不需要适用于 Audio Toolbox Interface for SpeechBrain and Torchaudio Libraries。