我在CountVectorizer和CharNGramAnalyzer之间感到困惑。根据我的理解,
我对我的理解是否正确?如果没有,我想详细解释或解释它的任何来源。
答案 0 :(得分:2)
首先,检查您的sklearn版本。我觉得你使用的是旧版sklearn。您为CountVectorizer
提供的解释不正确。它不计算语料库中不同单词的数量,至少不计算当前版本。
根据docs of CountVectorizer,您需要传递analyzer='word'
才能使字数统计。在最新版本的sklearn中,CharNGramAnalyzer
已弃用,现已与CountVectorizer
合并。只需analyzer='char'
复制CharNGramAnalyzer
即可。要验证此检查,http://scikit-learn.org/stable/modules/classes.html#module-sklearn.feature_extraction.text没有CharNGramAnalyzer