标签: python machine-learning nlp text-classification countvectorizer
我正在对方言进行文本分类。我正在使用朴素的贝叶斯分类器与countVectorizer。我有许多错误分类的文本。有没有一种方法可以分析这些错误以找出分类错误的地方?例如,如果我可以知道使用了哪些单词将文本误分类为A,而应该将其分类为B,则可以从A的语料库中删除这些单词。
是否应该使用群集切换到无监督学习?还是神经网络和深度学习?如果朴素的贝叶斯分类器不起作用。
此外,我怎么知道countVectorizer如何对文档进行分类?以及他用来对文档进行分类的单词。