我需要帮助来计算和显示使用 K 均值聚类的质心之间的距离。 我的数据集是简单的 .csv 文件。它有两列text 和type。 type 列具有三个值:'A'、'B'、'C'。 text 列有一个字符串,其中包含每种类型的单词。 所以,这个数据集被标记了。所以,我需要对已知聚类进行聚类。
我应该使用 tfidf 将数据聚类到三个聚类,并计算每个聚类(质心)之间的距离。
我需要一种形式的结果:
A | B | C | |
---|---|---|---|
A | 0 | X | Y |
B | X | 0 | Z |
C | Y | Z | 0 |
其中 X、Y、Z 是质心之间的距离。
有人知道如何解决这个问题吗?