应用错误收集

TensorFlow Dataset.shuffle - 大型数据集

时间：2017-12-12 20:54:51

标签： machine-learning tensorflow tfrecord

我正在使用TensorFlow 1.2和20G TFRecord文件中的数据集。该TFRecord文件中有大约50万个样本。

如果我选择的值小于buffer_size数据集中的记录数量，则只会使用TFRecord中的前N个记录。 https://www.tensorflow.org/api_docs/python/tf/contrib/data/Dataset#shuffle

例如，如果buffer_size = 100，似乎只使用了前100条记录。

问题

buffer_size是否始终是数据集的长度？这会影响培训表现吗？

1 个答案:

答案 0 :(得分：7)

无论您选择何种缓冲区大小，都将使用所有样本，它只会影响随机播放的随机性。

如果缓冲区大小为100，则意味着Tensorflow将保留接下来100个样本的缓冲区，并将随机选择这100个样本中的一个。然后它将下一个元素添加到缓冲区。

所以，如果buffer_size = 1则根本没有shuffle，如果buffer_size＆gt; data_set_size保证完美均匀的随机混洗。

我强烈建议在创建TFrecords之前对数据集进行随机播放，并保持较小的缓冲区大小。

相关问题

处理张量流中的大图像数据集

Dataset.map，Dataset.prefetch和Dataset.shuffle

TensorFlow Dataset.shuffle - 大型数据集

用大数据集求解线性模型

当与repeat（）和batch（）一起使用时，TensorFlow dataset.shuffle（）行为

在Tensorflow中，当使用dataset.shuffle（1000）时，我是否仅使用整个数据集中的1000个数据？

大型HDF5文件的Tensorflow数据集管道

由于数据集过多，无法保存张量流图

Tensorflow联合的大型数据集处理

如果没有repeat（），Tensorflow dataset.shuffle似乎不会洗牌

最新问题

我写了这段代码，但我无法理解我的错误

我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？

是否有可能使 loadstring 不可能等于打印？卢阿

java中的random.expovariate()

Appscript 通过会议在 Google 日历中发送电子邮件和创建活动

为什么我的 Onclick 箭头功能在 React 中不起作用？

在此代码中是否有使用“this”的替代方法？

在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化

每千个数字得到

更新了城市边界 KML 文件的来源？