对于SVM

时间:2017-12-08 10:26:45

标签: python machine-learning svm

我有一个庞大的数据集,大约5-8百万个数据和70-80个类,到现在为止,未来的数据和类将会增加。

我使用hashingvectorizer()进行功能选择,因为我正在构建增量学习模型(我没有使用CountVectorizer(),Tfidf(),因为我听说他们不支持增量学习)

所以我有多类分类问题,并且我使用了使用partial_fit方法的SDC分类器和SVM。但是在测试过程中它会产生错误分类。

1)是因为我在功能选择中做错了吗

2)不平衡数据是否存在问题?

3)参数调整?

4)如何判断迭代次数?任何方法? (数据正在增加)

5)欢迎任何其他反馈。

请提供一些示例,您的答案将有所帮助

0 个答案:

没有答案