Ngrams在Python中没有重叠

时间:2019-04-17 05:54:07

标签: python tfidfvectorizer

我想让TfidfVectorizer在不重叠的情况下基于二元数进行计数。

from sklearn.feature_extraction.text import TfidfVectorizer 
corpus = [ '1 2 3 4 5 6' ]
vectorizer = TfidfVectorizer(ngram_range=(2,2))
X = vectorizer.fit_transform(corpus)
结果,矢量化器的计数不为1,2; 2,3; 3,4等,但1,2; 3,4; 5,6。

我想我应该更改令牌生成器。但是我不知道该怎么做。 有任何想法吗? 谢谢你!

0 个答案:

没有答案