我有两种类型的文件,我想知道它们的相似程度。
doc1list = ["我喜欢苹果","苹果是健康的","健康就是财富"]
doc2list = ["我讲的是水果" ,"蔬菜很好",#34;外出就餐很糟糕"]
我想计算这2个文档列表中的每一个的平均余弦相似度,并比较这两个列表。
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from scipy import linalg, mat, dot
count_vectorizer = CountVectorizer()
matrix=count_vectorizer.fit_transform(doc1list)
c = dot(matrix,matrix.T)/linalg.norm(matrix)/linalg.norm(matrix)
print(c)
但这会产生错误 引发ValueError('维度不匹配') ValueError:维度不匹配