我正在TensorFlow中构建一个RNN语言模型。我的原始输入包含文本文件。我能够对它们进行标记,因此我正在使用的数据是整数序列,它们是词汇表的索引。
按照ptb_word_lm.py
中的示例,我编写了一些代码来构建一个语言模型,通过feed_dict方法获取其训练数据。但是,我不希望仅限于可以适合内存的数据集,因此我想使用file pipelines来读取数据。我找不到任何如何做到这一点的例子。
我见过的文件管道示例都有一个长度为 n 的张量与一个长度为1的张量的标签相关联。(典型的例子是28 x 28 = 784项张量表示与单个整数标签相关联的MNIST位图,范围从0到9.)但是,RNN训练数据由 n 连续令牌的向量和由 n <组成的标签组成/ em>连续的令牌(在向量之前移位一个),例如:
"the quick brown fox jumped"
vectors (n=3): the quick brown, quick brown fox, brown fox jumped
labels (n=3): quick brown fox, brown fox jumped, fox jumped EOF
有人可以给我一个代码片段,说明如何编写文件管道以将这种形状的数据提供给TensorFlow图形吗?