标签: feature-extraction text-classification feature-selection countvectorizer tfidfvectorizer
我正在使用countVectorizer和朴素贝叶斯对4种方言文本进行分类。验证模型时,准确性降低了。所以我正在寻找如何增加它。我以为可能会过拟合。实现此目的的方法是减少功能部件的数量。我是在max_features=20000功能之前使用45000进行此操作的。 但是:我查看了其余功能,countvectorizer删除了所有重要功能并保留了最常用的功能。但这并不是功能选择。那么如何通过为每种方言选择最相关的特征来进行特征选择呢?
max_features=20000
45000