Text Analytics Toolbox 提供多种算法和可视化,可用于文本数据的预处理、分析和建模。使用该工具箱创建的模型可用于情感分析、预测性维护和主题建模等应用。
Text Analytics Toolbox 中的工具可用于处理不同来源(例如设备日志、新闻提要、调查、操作员报告和社交媒体)的原始文本。您可以从常用文件格式中提取文本、预处理原始文本、提取单个单词、将文本转换为数字表示以及构建统计模型。
借助 LSA、LDA 和词嵌入等机器学习方法,您可以在高维文本数据集中查找簇并由此创建特征。您可以将使用 Text Analytics Toolbox 创建的特征与来自其他数据源的特征相结合,以构建综合运用文本、数字和其他类型数据的机器学习模型。
开始:
提取文本数据
将文本数据从单个文件或大量文件中导入 MATLAB,包括 PDF、HTML、Microsoft® Word® 及 Excel® 文件。
清理文本数据
应用高级过滤函数删除无关内容,例如 URL、HTML 标记和标点符号,并纠正拼写。
提取语言特征
使用标记化 (tokenization) 算法,自动将原始文本拆分为单词集合。添加句子边界、词性详情和其他相关信息以提供上下文。
词嵌入和编码
训练词嵌入模型,如 word2vec 连续词袋 (CBOW) 模型和 skip-gram 模型。导入预训练模型,包括 fastText 和 GloVe。
主题建模
使用隐含狄利克雷分布 (LDA) 和隐含语义分析 (LSA) 等机器学习算法,发现并可视化大型文本数据集中的底层模式、趋势和复杂关系。
文档摘要和关键字提取
自动从一个或多个文档中提取摘要和相关关键字,并评估文档的相似度和重要性。
变换器模型
使用 BERT, FinBERT, 和 GPT-2 等变换器模型执行文本数据迁移学习,以用于情感分析、分类和摘要等任务。