此示例说明如何训练深度学习 LSTM 网络来逐单词生成文本。

要训练深度学习网络以逐单词生成文本,请训练“序列到序列”的 LSTM 网络,以预测单词序列中的下一个单词。要训练网络以预测下一个单词,请将响应指定为移位一个时间步的输入序列。

此示例从网站上读取文本。它读取并解析 HTML 代码以提取相关文本,然后使用自定义的小批量数据存储 documentGenerationDatastore 将文档作为小批量序列数据输入网络。数据存储将文档转换为数值单词索引序列。深度学习网络是包含单词嵌入层的 LSTM 网络。


您可以通过自定义函数,使 documentGenerationDatastore 指定的自定义小批量数据存储适合您的数据。此文件作为支持文件包含在此示例中。要访问此文件,请以实时脚本形式打开此示例。有关说明如何创建您自己的自定义小批量数据存储的示例,请参阅Develop Custom Mini-Batch Datastore


加载训练数据。从 Project Gutenberg 读取 Alice's Adventures in Wonderland by Lewis Carroll 中的 HTML 代码。

url = "";
code = webread(url);

解析 HTML 代码

HTML 代码包含 <p>(段落)元素内的相关文本。通过使用 htmlTree 解析 HTML 代码,然后找到元素名为 "p" 的所有元素,来提取相关文本。

tree = htmlTree(code);
selector = "p";
subtrees = findElement(tree,selector);

使用 extractHTMLText 从 HTML 子树中提取文本数据,并查看前 10 段。

textData = extractHTMLText(subtrees);
删除空段落并查看更新后的前 10 个段落。

textData(textData == "") = [];
title("Alice's Adventures in Wonderland")


使用 documentGenerationDatastore 创建包含训练数据的数据存储。对于预测变量,此数据存储使用单词编码将文档转换为单词索引序列。每个文档的第一个单词索引对应于“文本开始”标记。“文本开始”标记由字符串 "startOfText" 给出。作为响应,数据存储返回移位了一个单词的分类序列。

使用 tokenizedDocument 对文本数据进行分词。

documents = tokenizedDocument(textData);


ds = documentGenerationDatastore(documents);


ds = sort(ds);

创建和训练 LSTM 网络

定义 LSTM 网络架构。要将序列数据输入到网络中,请包含一个序列输入层并将输入大小设置为 1。接下来,包含一个维度为 100 且与单词编码具有相同单词数的单词嵌入层。接下来,包含一个 LSTM 层并指定隐藏单元个数为 100。最后,添加一个大小与类数相同的全连接层、一个 softmax 层和一个分类层。类的数量是词汇表中的单词数加上一个针对“文本结束”类的额外类。

inputSize = 1;
embeddingDimension = 100;
numWords = numel(ds.Encoding.Vocabulary);
numClasses = numWords + 1;

layers = [ 

指定训练选项。在选项中进行选择需要经验分析。要通过运行试验探索不同训练选项配置,您可以使用Experiment Manager

  • 指定求解器为 'adam'

  • 进行 300 轮训练,学习率为 0.01。

  • 将小批量大小设置为 32。

  • 要保持数据按序列长度排序,请将 'Shuffle' 选项设置为 'never'

  • 要监控训练进度,请将 'Plots' 选项设置为 'training-progress'

  • 要隐藏详尽输出,请将 'Verbose' 设置为 false

options = trainingOptions('adam', ...
    'InputDataFormats','CTB', ...
    'MaxEpochs',300, ...
    'InitialLearnRate',0.01, ...
    'MiniBatchSize',32, ...
    'Shuffle','never', ...
    'Plots','training-progress', ...
    'Metrics', 'accuracy', ...

使用 trainnet 函数训练神经网络。对于分类,使用交叉熵损失。默认情况下,trainnet 函数使用 GPU(如果有)。在 GPU 上进行训练需要 Parallel Computing Toolbox™ 许可证和受支持的 GPU 设备。有关受支持设备的信息,请参阅GPU Computing Requirements (Parallel Computing Toolbox)。否则,trainnet 函数使用 CPU。要指定执行环境,请使用 ExecutionEnvironment 训练选项。

net = trainnet(ds,layers,"crossentropy",options);


根据训练数据中文本的所有首个单词的概率分布抽取一个单词来生成文本的第一个单词。接着使用经过训练的 LSTM 网络基于当前已生成的文本序列预测下一时间步,以生成其余单词。继续逐个生成单词,直到网络预测到“文本结尾”单词。

要使用网络进行第一次预测,请输入表示“文本开始”标记的索引。使用 word2ind 函数和文档数据存储所使用的单词编码来查找索引。

enc = ds.Encoding;
wordIndex = word2ind(enc,"startOfText")
wordIndex = 1

在后续的预测中,会根据网络的预测分数来抽取下一个单词。预测分数表示下一个单词的概率分布。从 wordEncoding Vocabulary 属性中获取词汇表,并包括“EndOfText”标记,该标记添加在每个观测值的末尾。

vocabulary = [enc.Vocabulary "EndOfText"];

使用 predict 函数逐单词进行预测。对于每次预测,都输入前一个单词的索引。当网络预测到文本结尾单词或生成的文本长度达到 500 个字符时,停止预测。对于大型数据集合、长序列或大型网络,在 GPU 上进行预测计算通常比在 CPU 上快。其他情况下,在 CPU 上进行预测计算通常更快。要使用 GPU,请先将数据转换为 gpuArray

generatedText = "";
maxLength = 500;
while strlength(generatedText) < maxLength
    % Predict the next word scores.
    [wordScores,state] = predict(net,wordIndex);
    net.State = state;
    % Sample the next word.
    newWord = datasample(vocabulary,1,'Weights',wordScores);
    % Stop predicting at the end of text.
    if newWord == "EndOfText"
    % Add the word to the generated text.
    generatedText = generatedText + " " + newWord;
    % Find the word index for the next input.
    wordIndex = word2ind(enc,newWord);



punctuationCharacters = ["." "," "’" ")" ":" "?" "!"];
generatedText = replace(generatedText," " + punctuationCharacters,punctuationCharacters);


punctuationCharacters = ["(" "‘"];
generatedText = replace(generatedText,punctuationCharacters + " ",punctuationCharacters)
generatedText = 
" “ A fine day, I would be a week before, ” the March Hare went on."

要生成多篇文本,请在每次生成完成后使用 resetState 重置网络状态。

net = resetState(net);


