标签: python tensorflow tensorflow-datasets
如果我们想训练我们的NN,以使每个小批量都代表整个数据集的代表性混合,并使用未均匀混合的碎片,那么这可能吗?
我知道,如果我们先将所有内容洗牌,然后细分为碎片,一切都会很高兴。
但是,请考虑以下情况:我们拥有最初的分片集,然后在以后以类分配非常不同的方式获取更多数据。如果没有重新整理/重新分片整个数据集,我们该怎么办? (假设数据集太大而无法放入RAM中。)
这种情况是否甚至是分片的预期用例,还是我们完全滥用了分片?