sklearn中的CountVectorizer(binary = True)和n CountVectorizer(binary = False)有什么区别

时间:2019-06-26 12:50:19

标签: python vector nlp n-gram countvectorizer

我通过定义ngram_vectorizer = CountVectorizer(binary = True)和ngram_vectorizer = CountVectorizer(binary = False)来运行脚本

两者的混淆矩阵的结果不同。能帮助我了解二进制文件是什么?

1 个答案:

答案 0 :(得分:0)

如果设置binary=True,则CountVectorizer将不再使用术语/令牌的计数。如果文档中存在令牌,则令牌为1;如果令牌不存在,则令牌为0,而与令牌的出现频率无关。因此,您将只处理二进制值。默认情况下,binary=False

请参见usage examples here