我想让TfidfVectorizer在不重叠的情况下基于二元数进行计数。
from sklearn.feature_extraction.text import TfidfVectorizer
corpus = [ '1 2 3 4 5 6' ]
vectorizer = TfidfVectorizer(ngram_range=(2,2))
X = vectorizer.fit_transform(corpus)
结果,矢量化器的计数不为1,2; 2,3; 3,4等,但1,2; 3,4; 5,6。
我想我应该更改令牌生成器。但是我不知道该怎么做。 有任何想法吗? 谢谢你!