训练零件的逻辑回归模型以获取大数据

时间:2019-02-18 02:36:51

标签: python machine-learning nlp bigdata logistic-regression

经过预处理后,我的数据集包含160万行和17000列。我想对该数据使用逻辑回归,但是每次加载数据集时,该过程都会被终止。有没有一种方法可以训练块的逻辑回归模型,而每次迭代都会更新系数。 sklearn支持我的问题的任何技术吗?

1 个答案:

答案 0 :(得分:0)

首先,请阅读this。在数据集上训练LR的时间有点高。 为避免这种情况,您可以在sklearn中使用LR的热启动参数,并遍历数据块。

  

warm_start:布尔值,默认值:False当设置为True时,重用解决方案   上一次调用以适合初始化,否则,只需擦除   以前的解决方案。对于liblinear求解器无用。请参阅词汇表。

(来自here

更准确地说:

  

warm_start在同一数据集上反复拟合估计量时,   但是对于多个参数值(例如查找值)   最大化网格搜索中的性能),有可能重用   从先前的参数值中学到的模型方面,保存   时间。当warm_start为true时,现有拟合模型将属性   用于在随后的拟合调用中初始化新模型

(来自here