计算余弦相似度并重整

时间:2018-12-18 19:42:23

标签: python-3.x dataframe cosine-similarity

我有一个看起来像这样的文件:

enter image description here

我想计算Excel中每一行的余弦相似度。到目前为止,我编写的代码是:

df = pd.read_csv('example.csv',encoding="ISO-8859-1")
similarities = df['value'].values.tolist()
tfidf_vectorizer = TfidfVectorizer()
tfidf_matrix = tfidf_vectorizer.fit_transform(similarities)  
cosine_similarity(tfidf_matrix, tfidf_matrix)

它返回一个4X4矩阵。有什么方法可以将矩阵重塑为以下格式? enter image description here

0 个答案:

没有答案