Audio Toolbox 以及 Audio Toolbox Interface for SpeechBrain and Torchaudio Libraries 支持使用预训练的 AI 模型对音频和语音信号执行高级信号处理与分析任务。
通过单独的函数调用,您无需任何深度学习专业知识即可:
- 使用语音转文本 (STT) 管道通过自动语音识别 (ASR) 转录语音
- 使用文本转语音 (TTS) 管道合成语音
- 通过语音活动检测 (VAD) 检测语音、识别口语语言并对声音进行分类
- 通过发言人识别深度学习模型和机器学习管道注册和识别正在说话的人
- 在鸡尾酒会问题中分离语音源,并对语音信号进行增强和去噪
- 估计音乐音高,并从音频、语音和音乐信号中提取嵌入内容
这些函数使用预训练的机器学习模型和深度学习模型,并且通过 MATLAB、Python® 和 PyTorch® 的组合来运行。
适用于 SpeechBrain 和 Torchaudio 库的 Audio Toolbox 接口
Audio Toolbox Interface for SpeechBrain and Torchaudio Libraries 支持将一系列预训练的 AI 模型与 Audio Toolbox 的信号处理和信号分析函数结合使用。
该接口自动安装 Python 和 PyTorch,并从 SpeechBrain 和 Torchaudio 库下载选定深度学习模型。在安装完成后,它通过在底层使用本地 AI 模型运行以下函数:
speech2text
接受speechClient
对象,模型设置为emformer
或whisper
,此外还有本地wav2vec
模型以及Google
、IBM
、Microsoft
和Amazon
等云服务选项。使用whisper
还需要单独下载模型权重,如下载 Whisper 语音到文本模型中所述。text2speech
接受speechClient
对象,其模型设置为hifigan
,此外还有Google
、IBM
、Microsoft
和Amazon
等云服务选项。
speech2text
和 text2speech
函数接受并返回文本字符串和音频采样。这些函数不需要您编写任何信号预处理、特征提取、模型预测和输出后处理的代码。

使用具有附加函数的即用型 AI 处理语音和音频
Audio Toolbox 包括附加函数,例如 classifySound
、separateSpeakers
、enhanceSpeech
、detectspeechnn
、pitchnn
和 identifyLanguage
。借助这些函数,您可以使用高级深度学习模型处理和分析音频信号,而无需 AI 专业知识。这些模型不需要适用于 Audio Toolbox Interface for SpeechBrain and Torchaudio Libraries。
结合使用 MATLAB 与 PyTorch 进行深度学习模型开发
熟悉深度学习的 MATLAB 和 PyTorch 用户可以结合使用这两种语言来开发和训练 AI 模型,包括通过协作执行和模型交换工作流。
了解更多: