Text Analytics Toolbox

 

Text Analytics Toolbox

分析文本数据并建模

开始:

文本数据导入和可视化

从社交媒体、新闻提要、设备日志、报告和调查等来源提取文本数据。

提取文本数据

将文本数据从单个文件或大量文件中导入 MATLAB®,包括 PDF、HTML、Microsoft® Word® 及 Excel® 文件。

从 Microsoft Word 文档集合中提取文本。

文本可视化

使用词云和文本散点图,直观地探查文本数据集。

词云通过字体大小和颜色显示单词的相对频率。

语言支持

Text Analytics Toolbox 针对英语、日语、德语和韩语提供了专用的预处理功能。大多数函数也适用于其他语言的文本。

导入、准备和分析日语文本。

文本数据预处理

从原始文本中提取有意义的单词。

清理文本数据

应用高级过滤函数删除无关内容,例如 URL、HTML 标记和标点符号,并纠正拼写。

简化原始文本(左)以便只分析最有意义的单词(右)。

过滤停用词并将单词归一化为词根

过滤常见单词、出现频率过高或过低的单词、非常长或非常短的单词,以便优先分析那些有意义的文本数据。通过词干提取获取单词词根,或通过词形还原将其转化为原形,从而减少词汇量,更侧重于文档整体层面的意义或情感分析。

删除文档中的停用词,如 "a" 和 "of"。

识别标记 (token)、句子和词性

使用标记化 (tokenization) 算法,自动将原始文本拆分为单词集合。添加句子边界、词性详情和其他相关信息以提供上下文。

在标记化文档中添加词性和句子细节。

将文本转换为数值格式

将文本数据转换为数值形式,以用于机器学习和深度学习。

单词和 n 元分词 (n-gram) 计数

计算单词频率统计数据,以数值形式表示文本数据。

识别并可视化模型中最常出现的单词。

词嵌入和编码

训练词嵌入模型,如 word2vec 连续词袋 (CBOW) 模型和 skip-gram 模型。导入预训练模型,包括 fastText 和 GloVe。

使用文本散点图可视化通过词嵌入找出的簇。 

文本数据机器学习

使用机器学习算法执行主题建模、情感分析、分类、降维和文档摘要提取。

主题建模

使用隐含狄利克雷分布 (LDA) 和隐含语义分析 (LSA) 等机器学习算法,发现并可视化大型文本数据集中的底层模式、趋势和复杂关系。

识别风暴天气报告数据中的主题。

文档摘要和关键字提取

自动从一个或多个文档中提取摘要和相关关键字,并评估文档的相似度和重要性。

从文本中提取摘要。

情感分析

识别文本数据代表的态度和观点,将各个表述归类为正面、中立或负面。构建模型用于实时预测情感。

识别可以预测正面和负面情感的词语。

文本数据深度学习

使用深度学习算法执行情感分析、分类、摘要和文本生成。

 

变换器模型

使用 BERT, FinBERT, 和 GPT-2 等变换器模型执行文本数据迁移学习,以用于情感分析、分类和摘要等任务。

用于文本数据迁移学习的变换器模型。

训练深度神经网络对文本数据进行分类。

文本生成

利用深度学习,基于观察到的文本生成新文本。

使用简奥斯汀的《傲慢与偏见》 和深度学习 LSTM 网络生成文本。