大型阵列的快速伪混洗

时间:2018-05-03 16:45:59

标签: deep-learning shuffle

我有大量的样本,我想要提供给我的深度学习模型。洗牌需要很长时间。我不需要一个完全随机的随机播放,并且考虑到问题的本质,我不关心结果中的几个碰撞。那么,是否存在快速且内存有效的伪混洗算法?

1 个答案:

答案 0 :(得分:1)

Reservoir sampling算法旨在从可能不适合内存的非常大的数据集中有效地进行采样。 TensorFlow提供了一个实现:

https://github.com/tensorflow/tensorboard/blob/master/tensorboard/backend/event_processing/reservoir.py