应用错误收集

我有一个庞大的数据集，大约5-8百万个数据和70-80个类，到现在为止，未来的数据和类将会增加。

我使用hashingvectorizer（）进行功能选择，因为我正在构建增量学习模型（我没有使用CountVectorizer（），Tfidf（），因为我听说他们不支持增量学习）

所以我有多类分类问题，并且我使用了使用partial_fit方法的SDC分类器和SVM。但是在测试过程中它会产生错误分类。

1）是因为我在功能选择中做错了吗

2）不平衡数据是否存在问题？

3）参数调整？

4）如何判断迭代次数？任何方法？（数据正在增加）

5）欢迎任何其他反馈。

请提供一些示例，您的答案将有所帮助