列表python

时间:2017-05-09 15:53:11

标签: python scipy scikit-learn cosine-similarity

我有两种类型的文件,我想知道它们的相似程度。

doc1list = ["我喜欢苹果","苹果是健康的","健康就是财富"]

doc2list = ["我讲的是水果" ,"蔬菜很好",#34;外出就餐很糟糕"]

我想计算这2个文档列表中的每一个的平均余弦相似度,并比较这两个列表。

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from scipy import linalg, mat, dot

count_vectorizer = CountVectorizer()
matrix=count_vectorizer.fit_transform(doc1list) 
c = dot(matrix,matrix.T)/linalg.norm(matrix)/linalg.norm(matrix)
print(c)

但这会产生错误 引发ValueError('维度不匹配') ValueError:维度不匹配

0 个答案:

没有答案