python-3.x - tensorflow数据集缓存交叉验证

tensorflow数据集缓存交叉验证

时间：2019-06-10 18:18:59

标签： python-3.x tensorflow tensorflow-datasets

我有一个非常昂贵的数据管道。我想使用tf.data.Dataset.cache将第一个纪元数据集缓存到磁盘。然后加快该过程。我这样做而不是将数据集保存到tfrecords中的原因是 1）我每次都在处理中更改许多参数，因此对它进行动态缓存更加方便 2）我正在进行交叉验证，所以我不知道要处理哪些文件

我有一个幼稚的解决方案-为训练文件的每一折创建一个管道，但是要缓存的空间很大（我正在做10折），相当于总共1TB。

还有其他方法可以在空间和时间上更有效地做到这一点吗？

1 个答案:

答案 0 :(得分：0)

回答我自己的问题，为此，我可以为每个文件创建一个管道，将每个管道缓存在磁盘上，将它们放入双端队列，然后使用tf.data.experimental.sample_from_datasets。

Tensorflow：交叉验证和测试错误图
Tensorflow数据集API：缓存
如何使用tf.MonitoredTrainingSession在训练和验证数据集之间切换？
如何在第一个时期正确缓存数据（Tensorflow，数据集）？
使用tensorflow数据集和keras进行验证
Colab：在TPU上缓存数据集
加载火车数据集时，张量流估计缓存大小的步骤
是否在数据集.repeat（），数据集.batch（）和数据集.prefetch（）之前或之后缓存数据集？
tensorflow数据集缓存交叉验证
如何将tf.data.dataset类型的数据集拆分为训练数据集和验证数据集？

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？