Text Analytics Toolbox

 

Text Analytics Toolbox

分析文本数据并建模

 

Text Analytics Toolbox™ 为文本数据的预处理、分析和建模提供算法和可视化。使用该工具箱创建的模型可用于情感分析、预测性维护和主题建模等应用。

Text Analytics Toolbox 包括用于处理不同来源(例如设备日志、新闻提要、调查、操作员报告和社交媒体)的原始文本的工具。您可以从常用文件格式中提取文本、预处理原始文本、提取单个单词、将文本转换为数字表示以及构建统计模型。

使用机器学习技术(如 LSA、LDA 和词嵌入),您可以从高维文本数据集中找到聚簇并创建特征。创建特性。使用 Text Analytics Toolbox 创建的特征可以与其他数据源中的特征相结合,以构建利用文本、数字和其他类型数据的机器学习模型。

 

文本数据导入和可视化

从社交媒体、新闻提要、设备日志、报告和调查等来源提取文本数据。

提取文本数据

将文本数据从单个文件或一组文件中导入 MATLAB®,包括 PDF、HTML、Microsoft® Word® 及 Excel® 文件。

从 Microsoft Word 文档集合中提取文本。

文本可视化

使用词云和文本散点图,直观地浏览文本数据集。

文本散点图使用字体大小和颜色显示单词的相对频率。

语言支持

Text Analytics Toolbox 为英语和日语提供语言相关的预处理能力。大多数函数也适用于其他语言的文本。

导入、准备和分析日语文本。

预处理文本数据

从原始文本中提取有意义的单词。

清理文本数据

应用高级筛选功能以删除无关的内容,例如 URL、HTML 标记和标点符号。

简化原始文本(左)以使用最有意义的单词(右)。

筛除停用词并将单词归一化为根形式

在分析中,通过过滤常见单词、出现频率过高或过低的单词、以及非常长或非常短的单词,对有意义的文本数据进行优先排序。 减少词汇量,将重点放在文档的更广泛意义或情感上,方法是将单词词根溯源到它们的词根形式,或将词汇引入词典的形式。

删除文档中停用词,如“a”和“of”。

识别标记,句子和词性

使用标记化算法,自动将原始文本拆分为单词集合。为上下文添加句子边界、词性细节和其他相关信息。

金融图表和技术指标。

将文本转化为数值格式

将文本数据转换为数字形式,以用于机器学习和深度学习。

单词和 N-Gram法计数

计算单词频率统计数据,以数字表示文本数据。

识别并可视化模型中最常出现的单词。

词嵌入和编码

训练词嵌入模型,如 word2vec 连续词袋 (CBOW) 和 skip-gram 模型。导入预训练模型,包括 fastText 和 GloVe。

使用词嵌入,将文本散点图中的聚簇进行可视化。 

文本数据机器学习

使用机器学习算法(如隐含狄利克雷分布 (LDA) 和隐含语义分析 (LSA)),执行主题建模、分类和降维。

主题建模

发现并可视化大量文本数据中的底层底层模式、趋势和复杂关系。

识别风暴报告数据中的主题。

文本数据深度学习

使用深度学习网络(如长短期记忆网络 (LSTM))进行情感分析和分类。

情感分析

识别文本数据中表达的态度和观点,将陈述分类为正面、中立或负面。构建可以实时预测情感的模型。

识别预测正面情感和负面情感的单词。 

训练深度神经网络,对文本数据进行分类。

文本生成

利用深度学习,基于观察到的文本生成新文本。

使用简奥斯汀的《傲慢与偏见》 和深度学习 LSTM 网络,生成文本。 

最新特性

德语支持

对德语文本执行文本分析,包括分词、停止词删除、词干提取和词性标注。

编辑距离

使用 Levensthein 距离和其他距离度量方法查找字符串与文档之间的相似度。

命名实体识别

检测文本中的地名、组织名称、人名和其他命名实体。

分词和预处理

指定并检测自定义标记的模式,并替换分词后的文档中的词或短语。

深度学习示例

学习使用卷积网络进行文本数据分类(需要 Deep Learning Toolbox)

关于这些功能和相应函数的详细信息,请参阅发行说明

通过深度学习进行情感分析

分析实时 Twitter 数据的情感,以了解特定术语的感知方式。

有疑问吗?

请联系 Text Analytics Toolbox 技术专家 Sohini Sarkar

获取免费试用版

30 天探索触手可及。

马上下载

准备购买?

获取详细价格和并探索相关产品。

您是学生吗?

获得 MATLAB 和 Simulink 学生版软件。

了解更多