我使用scikit的tfidf向量化一些文本数据。通过documentation我读到你可以将idf和normalization设置为False以获得0/1输出(二进制特征向量?)。所以我尝试了以下内容:
tfidf_vect= TfidfVectorizer(use_idf=False,
smooth_idf=True,
sublinear_tf=False,
ngram_range=(2,2),
norm=False)
这样,特征向量将是二进制?另一方面,documentation还有另一个模块可以执行此任务,即预处理。知道如何接受这个吗?
答案 0 :(得分:1)
TfidfVectorizer
使用名为binary
的参数:
tfidf_vect= TfidfVectorizer(use_idf=False,binary=True, norm=False, ngram_range=(2, 2))
这将使功能二进制