Tensorflow中的多行文本数据集

时间:2017-11-18 14:31:58

标签: python tensorflow tensorflow-datasets

tf.data。*包含数据集类。有一个TextLineDataset,但我需要的是多行文本(在开始/结束标记之间)。有没有办法为tf.data.TextLineDataset使用不同的换行符分隔符?

我是一位经验丰富的开发人员,但他是一名蟒蛇新手。我可以读,但我的写作有限。我正在将现有的Tensorflow NMT教程弯曲到我自己的数据集。大多数TFRecord教程都涉及jpgs或其他结构化数据。

1 个答案:

答案 0 :(得分:0)

您可以尝试两种选择:

  1. 编写一个生成器,然后使用N:在生成器中,您可以逐行读取文件,在执行此操作时将其追加到示例中,然后在遇到自定义分隔符时产生。

  2. 首先解析您的文件,创建多行Dataset.from_generator,然后将数据集存储为tf.train.SequenceExample(我认为这是比较麻烦的选择)