Question

我想检查两个长度不同的文档的余弦相似度（例如，一个是一个或两个衬线，而另一个是100-200行）。

为此，我需要一种在scikit-learn中标准化tfidf或count向量化器的方法。

Answer 1

TfidfVectorizer具有用于解决此问题的属性norm（请参阅the docs）。尝试例如以下操作：

vectorizer = TfidfVectorizer(analyzer='word', stop_words='english', norm='l2')

这将对向量进行归一化，以解决文档长度上的差异。