我应该使用countVectorizer转换整个文档还是一个句子?

时间:2019-05-20 07:14:11

标签: scikit-learn nlp text-classification naivebayes countvectorizer

我正在对4种方言文本进行分类,并且正在使用countVectorizer和朴素贝叶斯。我的准确性有问题,所以我在考虑,而不是给countvectorizer鸣叫(大约20K,每个鸣叫4K),如果我只给它4个文档,每个文档都包含与一个相关的所有鸣叫会有所不同方言?所以我会有一个矩阵(4XnumberOfFeatures),但是当我要验证时,我将一次给它发一条推文。

另一个问题: 当我减少countVectorizer中的功能数量时,他将在什么基础上删除这些功能?

0 个答案:

没有答案