python中大数据的余弦相似度

时间:2017-10-30 05:52:52

标签: python pandas cosine-similarity

dataset [' Review_Text']包含194439条评论。 下面给出的编码来计算这些评论之间的余弦相似度。

v= TfidfVectorizer()
X = v.fit_transform(dataset['Review_Text'].values.astype('U'))
S = cosine_similarity(X)

错误: ValueError:数组太大; arr.size * arr.dtype.itemsize大于最大可能大小。

0 个答案:

没有答案