Text Analytics Toolbox

分析文本数据并建模

 

Text Analytics Toolbox™ 提供多种算法和可视化,可用于文本数据的预处理、分析和建模。使用该工具箱创建的模型可用于情感分析、预测性维护和主题建模等应用。

Text Analytics Toolbox 中的工具可用于处理不同来源(例如设备日志、新闻提要、调查、操作员报告和社交媒体)的原始文本。您可以从常用文件格式中提取文本、预处理原始文本、提取单个单词、将文本转换为数字表示以及构建统计模型。

借助 LSA、LDA 和词嵌入等机器学习方法,您可以在高维文本数据集中查找簇并由此创建特征。您可以将使用 Text Analytics Toolbox 创建的特征与来自其他数据源的特征相结合,以构建综合运用文本、数字和其他类型数据的机器学习模型。

开始:

文本数据导入和可视化

从社交媒体、新闻提要、设备日志、报告和调查等来源提取文本数据。

提取文本数据

将文本数据从单个文件或大量文件中导入 MATLAB®,包括 PDF、HTML、Microsoft® Word® 及 Excel® 文件。

从 Microsoft Word 文档集合中提取文本。

文本可视化

使用词云和文本散点图,直观地探查文本数据集。

词云通过字体大小和颜色显示单词的相对频率。

语言支持

Text Analytics Toolbox 针对英语、日语、德语和韩语提供了专用的预处理功能。大多数函数也适用于其他语言的文本。

导入、准备和分析日语文本。

文本数据预处理

从原始文本中提取有意义的单词。

清理文本数据

应用高级过滤函数删除无关内容,例如 URL、HTML 标记和标点符号,并纠正拼写。

简化原始文本(左)以便只分析最有意义的单词(右)。

过滤停用词并将单词归一化为词根

过滤常见单词、出现频率过高或过低的单词、非常长或非常短的单词,以便优先分析那些有意义的文本数据。通过词干提取获取单词词根,或通过词形还原将其转化为原形,从而减少词汇量,更侧重于文档整体层面的意义或情感分析。

删除文档中的停用词,如 "a" 和 "of"。

识别标记 (token)、句子和词性

使用标记化 (tokenization) 算法,自动将原始文本拆分为单词集合。添加句子边界、词性详情和其他相关信息以提供上下文。

在标记化文档中添加词性和句子细节。

将文本转换为数值格式

将文本数据转换为数值形式,以用于机器学习和深度学习。

单词和 n 元分词 (n-gram) 计数

计算单词频率统计数据,以数值形式表示文本数据。

识别并可视化模型中最常出现的单词。

词嵌入和编码

训练词嵌入模型,如 word2vec 连续词袋 (CBOW) 模型和 skip-gram 模型。导入预训练模型,包括 fastText 和 GloVe。

使用文本散点图可视化通过词嵌入找出的簇。 

文本数据机器学习

使用机器学习算法执行主题建模、分类、降维和文档摘要提取。

主题建模

使用隐含狄利克雷分布 (LDA) 和隐含语义分析 (LSA) 等机器学习算法,发现并可视化大型文本数据集中的底层模式、趋势和复杂关系。

识别风暴天气报告数据中的主题。

文档摘要和关键字提取

自动从一个或多个文档中提取摘要和相关关键字,并评估文档的相似度和重要性。

从文本中提取摘要。

文本数据深度学习

使用深度学习网络(如长短期记忆网络 (LSTM))进行情感分析和分类。

情感分析

识别文本数据中表达的态度和观点,将陈述分类为正面、中立或负面。构建可以实时预测情感的模型。

识别预测正面情感和负面情感的单词。 

训练深度神经网络对文本数据进行分类。

文本生成

利用深度学习,基于观察到的文本生成新文本。

使用简奥斯汀的《傲慢与偏见》 和深度学习 LSTM 网络生成文本。 

最新特性

关键字提取

使用 RAKE 和 TextRank 算法,提取能够最准确描述文件的关键字

关于这些特性和相应函数的详细信息,请参阅发行说明

通过深度学习进行情感分析

分析实时 Twitter 数据的情感,以了解特定词语的感知效果。

其它 Text Analytics Toolbox 资源