Text Analytics Toolbox

分析文本数据并建模

Text Analytics Toolbox 为预处理、分析和建模文本数据提供算法和可视化。使用该工具箱创建的模型可用于情绪分析、预测性维护和主题建模等应用。

Text Analytics Toolbox 包括用于处理不同来源（例如设备日志、新闻提要、调查、操作人员报告和社交媒体）的原始文本的工具。您可以从常用文件格式中提取文本、预处理原始文本、提取单个单词、将文本转换为数值表示以及构建统计模型。

使用机器学习方法，如 LSA、LDA 和词嵌入，您可以从高维文本数据集中找到簇并创建特征。使用 Text Analytics Toolbox 创建的特征可以与来自其他数据源的特征相结合，以构建使用文本、数值和其他类型数据的机器学习模型。

MATLAB 代码，用于将 Microsoft Word 文档中的文本数据提取到数据存储中。

导入和可视化文本

将文本数据从 PDF、HTML 和 Microsoft^® Word 格式的单个文件或大量文件导入 MATLAB。使用文字云和文本散点图直观地探索文本数据集。

从 PDF、HTML、Microsoft Word、Microsoft Excel 和 CSV 文件提取文本数据

文档 | 示例

清洗和预处理文本

应用高级过滤功能来删除多余内容，如 URL、HTML 标记和标点符号。更正拼写，过滤停用词，并将单词规范化为词根形式。

在实时编辑器中清洗和预处理文本数据

文档 | 示例

将文本转换为结构化格式

使用分词算法提取语言特征，计算词频统计量以以数值样式表示文本数据，并训练词嵌入模型，例如 word2vec 和 skip-gram。

浏览和可视化词嵌入

文档 | 示例

使用 FinBERT 变换器模型对文本数据执行迁移学习以识别积极和消极态度的工作流。

将人工智能应用于文本分析

对文本数据进行机器学习或深度学习模型（如 LSA、LDA 和 LSTM）拟合。使用变换器模型（如 BERT、FinBERT 和 GPT-2）执行文本数据的迁移学习。

训练 BERT 文档分类器

文档 | 示例

大型语言模型

将 MATLAB 连接到 OpenAI™ Chat Completions API。在 MATLAB 环境中利用 GPT 模型的自然语言处理能力来处理文本提要和聊天等任务。

MATLAB 与大型语言模型 (LLM)

文档 | 示例

示意图：清洗文本数据以用于自然语言处理。左边：原始数据的文字云。右边：清洗后的数据的文字云。

面向工程师的文本分析

根据传感器和文本日志数据制定预测性维护调度。自动执行需求形式化和合规性检查。

工单数据的信息检索

文档 | 示例

文档分析

使用主题建模分析文本，以发现并可视化背后的模式、趋势和复杂关系。生成文档摘要，提取关键字，并计算文档的重要性和相似性。

使用卷积神经网络对文本数据进行分类

文档 | 示例

情绪分析

识别文本数据代表的态度和观点，将各个表述归类为正面、中立或负面。构建模型用于实时预测情绪。

使用 MATLAB 进行情绪分析

文档 | 示例

文本生成和分类

使用深度学习基于观测到的文本生成新文本，并使用可以识别类别的词嵌入对文本描述进行分类。

使用自编码器生成文本

文档 | 示例

产品资源:

文档示例视频技术文章函数要求发行说明

免费试用 Text Analytics Toolbox

立即探索各种可能。

立即开始

准备购买？

获取报价并了解相关产品。

查看定价联系销售人员

您是学生吗？

您的学校可能已拥有 Campus-Wide License 并允许您直接使用 MATLAB、Simulink 和其他附加产品。

获取 MATLAB

下一步是什么？

白皮书

MATLAB 文本分析快速入门

免费速查表

快速入门 Text Analytics Toolbox

视频

使用 MATLAB 进行文本分析 (23:35)