我已经创建了具有相当复杂转换的数据集(tf.data.Dataset
),并将其缓存到文件中。我的问题是如何在不重新构造数据集对象的情况下再次读取该数据集的内容。例如:
import tensorflow as tf
tf.enable_eager_execution()
db = tf.data.Dataset.range(10)
db = db.cache('/tmp/range')
for v in db:
print(v)
# /tmp/range.data-00000-of-00001 /tmp/range.index files are created
# later, you could restore the dataset from a method like this:
new_db = tf.data.Dataset.from_cache('/tmp/range')
这个想法是在另一个上下文中构建数据集并使用它,而无需构建我之前拥有的复杂的输入管道。
答案 0 :(得分:0)
我非常确定,如果您完成一个数据集的读取操作,那么下次您开始新的训练时,即使您对管道进行了更改,它仍将从该缓存文件中读取。