如何通过打印标记数据集上的质心之间的距离在 NLP 中进行 K-Mean 聚类?

时间:2021-08-01 22:37:25

标签: nlp distance k-means

我需要帮助来计算和显示使用 K 均值聚类的质心之间的距离。 我的数据集是简单的 .csv 文件。它有两列texttypetype 列具有三个值:'A'、'B'、'C'。 text 列有一个字符串,其中包含每种类型的单词。 所以,这个数据集被标记了。所以,我需要对已知聚类进行聚类。

我应该使用 tfidf 将数据聚类到三个聚类,并计算每个聚类(质心)之间的距离。

我需要一种形式的结果:

<头>
A B C
A 0 X Y
B X 0 Z
C Y Z 0

其中 X、Y、Z 是质心之间的距离。

有人知道如何解决这个问题吗?

0 个答案:

没有答案