我需要在10GB训练数据集之上进行预测建模,这些数据集无法容纳在内存中(8GB)。我正在考虑对大数据集进行多次采样,并在每个子集上进行拆分以生成训练和验证集以创建模型。有没有更好的方法来解决这个问题?谢谢!
答案 0 :(得分:1)
以块的形式加载数据,然后使用随机批次数据的随机梯度下降进行优化,直到块耗尽为止。带入下一个块并继续下降。对于SGD来说,这是一个近乎完美的用例。
如果您的数据集有订单,您可能需要考虑随机化块的顺序以帮助梯度下降。实际上,这可能没有区别(但当然可以)。如果你对它可能重要的原因感兴趣,可以考虑梯度下降数学。