我想检查两个长度不同的文档的余弦相似度(例如,一个是一个或两个衬线,而另一个是100-200行)。
为此,我需要一种在scikit-learn中标准化tfidf或count向量化器的方法。
答案 0 :(得分:1)
TfidfVectorizer具有用于解决此问题的属性norm
(请参阅the docs)。尝试例如以下操作:
vectorizer = TfidfVectorizer(analyzer='word', stop_words='english', norm='l2')
这将对向量进行归一化,以解决文档长度上的差异。