我有一个庞大的数据集,大约5-8百万个数据和70-80个类,到现在为止,未来的数据和类将会增加。
我使用hashingvectorizer()进行功能选择,因为我正在构建增量学习模型(我没有使用CountVectorizer(),Tfidf(),因为我听说他们不支持增量学习)
所以我有多类分类问题,并且我使用了使用partial_fit方法的SDC分类器和SVM。但是在测试过程中它会产生错误分类。
1)是因为我在功能选择中做错了吗
2)不平衡数据是否存在问题?
3)参数调整?
4)如何判断迭代次数?任何方法? (数据正在增加)
5)欢迎任何其他反馈。
请提供一些示例,您的答案将有所帮助