应用错误收集

时间：2019-02-18 02:36:51

标签： python machine-learning nlp bigdata logistic-regression

经过预处理后，我的数据集包含160万行和17000列。我想对该数据使用逻辑回归，但是每次加载数据集时，该过程都会被终止。有没有一种方法可以训练块的逻辑回归模型，而每次迭代都会更新系数。 sklearn支持我的问题的任何技术吗？

答案 0 :(得分：0)

首先，请阅读this。在数据集上训练LR的时间有点高。为避免这种情况，您可以在sklearn中使用LR的热启动参数，并遍历数据块。

warm_start：布尔值，默认值：False当设置为True时，重用解决方案上一次调用以适合初始化，否则，只需擦除以前的解决方案。对于liblinear求解器无用。请参阅词汇表。

（来自here）

更准确地说：

warm_start在同一数据集上反复拟合估计量时，但是对于多个参数值（例如查找值）最大化网格搜索中的性能），有可能重用从先前的参数值中学到的模型方面，保存时间。当warm_start为true时，现有拟合模型将属性用于在随后的拟合调用中初始化新模型。

（来自here）