我有一个看起来像这样的文件:
我想计算Excel中每一行的余弦相似度。到目前为止,我编写的代码是:
df = pd.read_csv('example.csv',encoding="ISO-8859-1")
similarities = df['value'].values.tolist()
tfidf_vectorizer = TfidfVectorizer()
tfidf_matrix = tfidf_vectorizer.fit_transform(similarities)
cosine_similarity(tfidf_matrix, tfidf_matrix)
它返回一个4X4矩阵。有什么方法可以将矩阵重塑为以下格式? enter image description here