第 3 章
改进训练数据的质量和数量
数据中的噪声何时是有利的?当噪声能准确反映实际情况时,它就是有利的。
现有典型大数据集的记录方式与语音和声音应用的实际应用场景不太一样。如果您的应用设计为可以识别语音触发字,那么它就需要处理麦克风不好用、特定类型的混响和背景噪声等问题。
借助现有的信号处理方法和领域专用应用,可以通过以下方式人为添加上述和其他效果,以扩展训练数据集:
- 数据增强
- 数据合成
信号可能很难观测,信号的测量也很难保持一致,因此要构建这类大型数据集并不容易;本章将探讨创建更多训练数据的方法。数据合成可以帮助从模型或仿真中创建新信号,而数据增强是一种用于创建现有数据新变体的特种数据合成。
我们先来简要了解一下深度学习如何处理信号数据。
数据增强
从现有的已标注示例开始,数据增强会生成:
- 类似于高质量验证数据的训练数据
- 系统在真实场景中可能遇到的现有数据的变体
增强效果通常是领域特有的。音频、语音和声学数据的常用增强效果包括移动时间、音调移位、控制音量等等。
厨房声音混响
洗衣机噪声
合成
数据合成包括使用 AI 生成的模型或仿真的组合,从头开始生成训练数据。
下面是一些领域专用的数据合成示例:
MATLAB 中的 text2speech
函数可以帮助您使用 IBM®、Microsoft® 或 Google® 提供的基于云的服务,包括通过 Google 著名的 WaveNet 网络,生成高质量的合成声音信号。
本示例说明了如何使用深度学习网络和时频分析,根据微多普勒特征对行人和骑车人进行分类。雷达前方目标不同部位的运动会产生相应的可用于识别该目标的微多普勒签名。
通信信号也很难在现场从空中抓取并记录,然后进行标注。WLAN Router Impersonation Detection 示例模拟了用于射频指纹识别的实际信号。有了这个算法,您便可以利用从软件无线电收集的数据,通过实际数据来训练和测试同一个系统。
您也可以从以下列表中选择网站:
如何获得最佳网站性能
选择中国网站(中文或英文)以获得最佳网站性能。其他 MathWorks 国家/地区网站并未针对您所在位置的访问进行优化。
美洲
- América Latina (Español)
- Canada (English)
- United States (English)
欧洲
- Belgium (English)
- Denmark (English)
- Deutschland (Deutsch)
- España (Español)
- Finland (English)
- France (Français)
- Ireland (English)
- Italia (Italiano)
- Luxembourg (English)
- Netherlands (English)
- Norway (English)
- Österreich (Deutsch)
- Portugal (English)
- Sweden (English)
- Switzerland
- United Kingdom (English)
亚太
- Australia (English)
- India (English)
- New Zealand (English)
- 中国
- 日本Japanese (日本語)
- 한국Korean (한국어)