我正在尝试使用Dataset API设计输入管道。我正在处理镶木地板文件。将它们添加到我的管道的好方法是什么?
答案 0 :(得分:4)
我们发布了,这是一个开放源代码库,可让您直接通过Tensorflow Dataset API使用Apache Parquet文件。
这里有一个小的Petastorm:
with Reader('hdfs://.../some/hdfs/path') as reader:
dataset = make_petastorm_dataset(reader)
iterator = dataset.make_one_shot_iterator()
tensor = iterator.get_next()
with tf.Session() as sess:
sample = sess.run(tensor)
print(sample.id)