应用错误收集

我有两种类型的文件，我想知道它们的相似程度。

doc1list = [＆＃34;我喜欢苹果＆＃34;，＆＃34;苹果是健康的＆＃34;，＆＃34;健康就是财富＆＃34;]

doc2list = [＆＃34;我讲的是水果＆＃34; ，＆＃34;蔬菜很好＆＃34;，＃34;外出就餐很糟糕＆＃34;]

我想计算这2个文档列表中的每一个的平均余弦相似度，并比较这两个列表。

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from scipy import linalg, mat, dot

count_vectorizer = CountVectorizer()
matrix=count_vectorizer.fit_transform(doc1list) 
c = dot(matrix,matrix.T)/linalg.norm(matrix)/linalg.norm(matrix)
print(c)

但这会产生错误引发ValueError（＆＃39;维度不匹配＆＃39;） ValueError：维度不匹配

列表python

0 个答案: