在Python中挖掘海量数据集

时间:2016-07-08 21:27:28

标签: python pandas machine-learning

我的数据集超过5GB。有没有办法用随机渐变下降的方式用块来训练我的模型?换句话说,将每个1 GB的5个块中断,然后训练参数。

我想在Python环境中这样做。

1 个答案:

答案 0 :(得分:1)

是的,你可以。 scikit learn中的SGD有partial fit;与你的块一起使用

http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.SGDClassifier.html#sklearn.linear_model.SGDClassifier

partial_fit(X, y[, classes, sample_weight]) Fit linear model with Stochastic Gradient Descent.