Tensorflow数据集API:具有镶木地板文件的输入管道

时间:2018-08-07 17:34:23

标签: tensorflow pipeline parquet

我正在尝试使用Dataset API设计输入管道。我正在处理镶木地板文件。将它们添加到我的管道的好方法是什么?

1 个答案:

答案 0 :(得分:4)

我们发布了enter image description here,这是一个开放源代码库,可让您直接通过Tensorflow Dataset API使用Apache Parquet文件。

这里有一个小的Petastorm

   with Reader('hdfs://.../some/hdfs/path') as reader:
        dataset = make_petastorm_dataset(reader)
        iterator = dataset.make_one_shot_iterator()
        tensor = iterator.get_next()
        with tf.Session() as sess:
            sample = sess.run(tensor)
            print(sample.id)