如何标准化TF * IDF或scikit-learn中的计数?

时间:2019-07-04 08:56:43

标签: scikit-learn nlp tf-idf countvectorizer

我想检查两个长度不同的文档的余弦相似度(例如,一个是一个或两个衬线,而另一个是100-200行)。

为此,我需要一种在scikit-learn中标准化tfidf或count向量化器的方法。

1 个答案:

答案 0 :(得分:1)

TfidfVectorizer具有用于解决此问题的属性norm(请参阅the docs)。尝试例如以下操作:

vectorizer = TfidfVectorizer(analyzer='word', stop_words='english', norm='l2')

这将对向量进行归一化,以解决文档长度上的差异。