Text Analytics Toolbox 为预处理、分析和建模文本数据提供算法和可视化。使用该工具箱创建的模型可用于情绪分析、预测性维护和主题建模等应用。
Text Analytics Toolbox 包括用于处理不同来源(例如设备日志、新闻提要、调查、操作人员报告和社交媒体)的原始文本的工具。您可以从常用文件格式中提取文本、预处理原始文本、提取单个单词、将文本转换为数值表示以及构建统计模型。
使用机器学习方法,如 LSA、LDA 和词嵌入,您可以从高维文本数据集中找到簇并创建特征。使用 Text Analytics Toolbox 创建的特征可以与来自其他数据源的特征相结合,以构建使用文本、数值和其他类型数据的机器学习模型。
导入和可视化文本
将文本数据从 PDF、HTML 和 Microsoft® Word 格式的单个文件或大量文件导入 MATLAB。使用文字云和文本散点图直观地探索文本数据集。
将人工智能应用于文本分析
对文本数据进行机器学习或深度学习模型(如 LSA、LDA 和 LSTM)拟合。使用变换器模型(如 BERT、FinBERT 和 GPT-2)执行文本数据的迁移学习。
大型语言模型
将 MATLAB 连接到 OpenAI™ Chat Completions API。在 MATLAB 环境中利用 GPT 模型的自然语言处理能力来处理文本提要和聊天等任务。