我通过定义ngram_vectorizer = CountVectorizer(binary = True)和ngram_vectorizer = CountVectorizer(binary = False)来运行脚本
两者的混淆矩阵的结果不同。能帮助我了解二进制文件是什么?
答案 0 :(得分:0)
如果设置binary=True
,则CountVectorizer将不再使用术语/令牌的计数。如果文档中存在令牌,则令牌为1;如果令牌不存在,则令牌为0
,而与令牌的出现频率无关。因此,您将只处理二进制值。默认情况下,binary=False
。