在建立贝叶斯分类器之前如何使用CountVectorizer

时间:2019-04-16 18:44:25

标签: python scikit-learn naivebayes countvectorizer

在对原始数据进行预处理之后,来自Kaggle的垃圾邮件数据。我已经删除了所有停用词和无用的词。现在,要求使用CountVectorizer量化清理后的单词。但是我不知道该怎么做以及它背后的概念是什么。

正如我刚刚学习的计数功能一样,它可以计算单词出现的频率。但是我不知道CountVectorizer。我在网上检查了一下,但是资源似乎有限。

spam['filtered'].head()

0    [Go, jurong, point, crazy.., avail, bugi, n, g...
1               [Ok, lar, ..., joke, wif, u, oni, ...]
2    [free, entri, 2, wkli, comp, win, FA, cup, fin...
3    [U, dun, say, earli, hor, ..., U, c, alreadi, ...
4    [nah, n't, think, goe, usf, live, around, though]
Name: filtered, dtype: object

from sklearn.feature_extraction.text import CountVectorizer
cv = CountVectorizer()

那么下一步该怎么做?另外,此后如何进行朴素贝叶斯分类器?

0 个答案:

没有答案