为了对语音数据执行自然语言处理,需要检测到音频段中存在的人类语音,执行语音到文本转录,并对生成的文本应用文本挖掘和机器学习方法。
自然语言处理的数据准备
在自然语言处理中,用于将文本从非结构化格式转换为结构化格式的一些方法如下:
分词:通常,这是自然语言处理中文本处理的第一步。它指将文本拆分成若干句子或字词。
词干提取:这种文本标准化方法通过删除单词的词缀将单词简化为其词根形式。它基于简单的启发式规则,可能会产生在字典中不存在的单词形式。
词形还原:这种复杂的文本标准化方法使用词汇和词法分析来删除单词的词缀。例如,“building has floors”简化为“build have floor”。
Word2vec:在字词嵌入方法中,最常见的实现方法是 Word2vec。该方法将字词的分布式表示创建为数值向量,以捕获字词的语义和字词之间的关系。
N 元分词建模:一个 n 元分词是文本文档中由 n 个连续项组成的一个集合,可能包括字词、数字、符号和标点符号。在涉及字词序列的自然语言处理应用中,例如情绪分析、文本分类和文本生成等应用,N 元分词模型可能非常有用。
AI 助力自然语言处理
基于语言数据训练的 AI 模型可以识别模式并预测句子中的后续字词。要构建自然语言处理模型,您可以使用经典的机器学习算法,如逻辑回归或决策树,也可以使用深度学习架构,如卷积神经网络 (CNN)、循环神经网络 (RNN) 和自编码器。例如,您可以使用 CNN 对文本进行分类,而使用 RNN 生成字符序列。
作为一种深度学习模型,变换器模型彻底改变了自然语言处理的方式,它们是 BERT 和 ChatGPT™ 等大型语言模型 (LLM) 的基础。变换器旨在跟踪顺序数据中的关系。这些变换器依靠自注意力机制来捕获输入与输出之间的全局依赖关系。
在自然语言处理的背景下,这使得 LLM 可以捕获在自然语言中存在的长期相关性、字词之间的复杂关系和细微差别。LLM 可以并行处理所有字词,从而可加快训练和推断速度。
与其他预训练深度学习模型类似,预训练 LLM 可用于执行迁移学习,以解决自然语言处理中的特定问题。例如,您可以微调日语文本的 BERT 模型。
自然语言生成 (NLG) 是自然语言处理的另一个分支,其中包括计算机用于在给定数据输入的情况下产生文本响应的各种方法。虽然 NLG 最初是基于模板的文本生成方式,但随着 AI 技术的发展,实时动态生成文本已成为可能。NLG 任务包括文本提要和机器翻译。
自然语言处理应用于金融、制造、电子、软件、信息技术和其他行业,例如:
- 自动根据情绪(正面或负面)对评论进行分类
- 统计文档中字词或短语的频率并执行主题建模
- 自动对录制的语音进行标注和标记
- 根据传感器和文本日志数据制定预测性维护计划
- 自动执行需求形式化和合规性检查
使用 MATLAB 进行自然语言处理
MATLAB 使您能够创建从数据准备到部署的自然语言处理工作流。使用 Deep Learning Toolbox™ 或 Statistics and Machine Learning Toolbox™ 和 Text Analytics Toolbox™,您可以对文本数据执行自然语言处理。同样,使用 Audio Toolbox™,您可以对语音数据执行自然语言处理。
AI 建模
您可以训练多种类型的机器学习模型来执行分类或回归任务。例如,您只需使用几行 MATLAB 代码即可创建和训练长短期记忆网络 (LSTM)。您还可以使用深度网络设计器创建和训练深度学习模型,并使用准确度、损失和验证度量等绘图监控模型训练过程。
与其从头开始创建深度学习模型,不如使用预训练模型。您可以将预训练模型直接应用于您的自然语言处理任务,也可以根据该任务对预训练模型进行调整。借助 MATLAB,您可以从 MATLAB 深度学习模型中心访问预训练网络。例如,您可以使用 VGGish 模型从音频信号中提取特征嵌入,使用 wav2vec 模型进行语音到文本转录,而使用 BERT 模型进行文档分类。您还可以使用 importNetworkFromTensorFlow 或 importNetworkFromPyTorch 函数从 TensorFlow™ 或 PyTorch™ 导入模型。
相关主题
选择网站
选择网站以获取翻译的可用内容,以及查看当地活动和优惠。根据您的位置,我们建议您选择:。
您也可以从以下列表中选择网站:
如何获得最佳网站性能
选择中国网站(中文或英文)以获得最佳网站性能。其他 MathWorks 国家/地区网站并未针对您所在位置的访问进行优化。
美洲
- América Latina (Español)
- Canada (English)
- United States (English)
欧洲
- Belgium (English)
- Denmark (English)
- Deutschland (Deutsch)
- España (Español)
- Finland (English)
- France (Français)
- Ireland (English)
- Italia (Italiano)
- Luxembourg (English)
- Netherlands (English)
- Norway (English)
- Österreich (Deutsch)
- Portugal (English)
- Sweden (English)
- Switzerland
- United Kingdom (English)