在Python SGDClassifier

时间:2016-02-26 22:05:01

标签: python-3.x machine-learning scikit-learn text-classification

我已成功通过this示例获取自己的文本分类脚本。

问题是我不打算在partial_fit调用循环中处理大量但现有的数据集,就像他们在示例中所做的那样。我希望能够在可用时添加数据,即使我在此期间关闭了我的python脚本。

理想情况下,我想做这样的事情:

2015年的某个时候:

model2015 = partial_fit(dataset2015)

save_to_file(model2015)

关闭我的python脚本

2016年的某个时候:

再次打开我的python脚本

load_from_file(model2015)

partial_fit(包含model2015的dataset2016)

save_to_file(model2016)

2017年的某个时候:

再次打开我的python脚本

等...

有什么方法可以在scikit-learn中做到这一点吗?或者在其他一些软件包中(也许是Tensorflow)?

1 个答案:

答案 0 :(得分:0)

只需挑选您的模型并将其保存到磁盘即可。另一种方法是转储.coef_和.intercept_字段(只有两个数组)并在调用.fit

时将它们用作初始值设定项