应用错误收集

我正在尝试解决NLP多标签分类问题。我有大量的文档，应该分为29类。

我解决该问题的方法是，在清理文本之后，停止单词删除，标记化等操作，

要创建特征矩阵，我查看了每个文档术语的频率分布，然后创建了这些术语的表格（删除了重复的术语），然后计算了其对应文本中每个单词的术语频率（tf）。因此，最终我得到了大约1000个术语以及每个文档中它们受尊敬的频率。

然后我使用selectKbest将它们缩小到490左右。缩放它们后，我使用OneVsRestClassifier（SVC）进行分类。

我在F1 score周围得到0.58，但一点都没有改善，我需要得到0.62。

我可以正确处理问题吗？

我需要使用tfidf vectorizer而不是tf，怎么办？

我是NLP的新手，我不确定下一步该怎么做以及如何提高分数。

任何有关此主题的帮助都是无价的。

谢谢