tf.data。*包含数据集类。有一个TextLineDataset,但我需要的是多行文本(在开始/结束标记之间)。有没有办法为tf.data.TextLineDataset使用不同的换行符分隔符?
我是一位经验丰富的开发人员,但他是一名蟒蛇新手。我可以读,但我的写作有限。我正在将现有的Tensorflow NMT教程弯曲到我自己的数据集。大多数TFRecord教程都涉及jpgs或其他结构化数据。
答案 0 :(得分:0)
您可以尝试两种选择:
编写一个生成器,然后使用N
:在生成器中,您可以逐行读取文件,在执行此操作时将其追加到示例中,然后在遇到自定义分隔符时产生。
首先解析您的文件,创建多行Dataset.from_generator
,然后将数据集存储为tf.train.SequenceExample
(我认为这是比较麻烦的选择)