答案 0 :(得分:3)
是的,它应该在每次迭代时洗牌,例如引自{1}:
任何随机梯度下降法(包括 小批量情况),每个例子或小批量对估算器的效率很重要 大致独立地采样。因为 随机访问内存(甚至更糟,到 磁盘)很昂贵,很好的近似,称为增量 渐变(Bertsekas,2010),是访问的 相应的固定顺序的示例(或小批量) 他们在内存或磁盘中的顺序(重复 第二个时期的相同顺序的例子,如果 我们不是在纯粹的在线案例中每个例子 只访问过一次)。在这种情况下,它更安全 示例或小批量首先随机放入 订单(为了确保这种情况,它可以 有用的是首先洗牌的例子)。 更快收敛 已观察到如果顺序在哪里 访问的迷你批次每个时期都会更改, 如果训练集可以合理有效 掌握在计算机内存中。
{1} Bengio,Yoshua。 " Practical recommendations for gradient-based training of deep architectures."神经网络:贸易诀窍。施普林格柏林海德堡,2012年.437-478。