经过预处理后,我的数据集包含160万行和17000列。我想对该数据使用逻辑回归,但是每次加载数据集时,该过程都会被终止。有没有一种方法可以训练块的逻辑回归模型,而每次迭代都会更新系数。 sklearn支持我的问题的任何技术吗?
答案 0 :(得分:0)
首先,请阅读this。在数据集上训练LR的时间有点高。 为避免这种情况,您可以在sklearn中使用LR的热启动参数,并遍历数据块。
warm_start:布尔值,默认值:False当设置为True时,重用解决方案 上一次调用以适合初始化,否则,只需擦除 以前的解决方案。对于liblinear求解器无用。请参阅词汇表。
(来自here)
更准确地说:
warm_start在同一数据集上反复拟合估计量时, 但是对于多个参数值(例如查找值) 最大化网格搜索中的性能),有可能重用 从先前的参数值中学到的模型方面,保存 时间。当warm_start为true时,现有拟合模型将属性 用于在随后的拟合调用中初始化新模型。
(来自here)