我有 N 个分布样本(我们称之为 Sample_N),每个样本都有“col1”和“col2”作为特征。基于特征“col2”,运行k-means聚类算法将N个样本聚类为M个质心。然后质心用于计算与不同分布的另一个 M 个样本(我们称之为 Sample_M)作为 N 个样本的相似性。但是,Sample_M 和 Sample_N 具有相同的列“col1”。所以最后我有一个 M × M 矩阵如下:
0 1 2 3 4 M
1 # # # # #
2 $ $ $ $ $
3
4
M
因此,如果我选择“#”行的最大值,我可以获得 Sample_M 中与 centroid_1 最相似的样本。Sample_M 中与 centroid_2 中最相似样本的“$”行的最大值等。
现在我有另一个数据框如下:
sample_id centroid
1 1
2 2
3 2
4 1
... ...
N M
它包含“原始N个样本属于M个质心中的哪一个?”的信息
除此之外,我还根据“col1”功能对 Sample_M 样本进行了聚类。它们在以下数据框中表示:
GroupNo col1
1 11374620
1 118519361
2 118525235
... ...
300 490028653
请注意,Sample_M 也将列“col1”作为 Sample_N。
这是我的问题:对于 Sample_N 中的每个样本(例如“sample_n”),鉴于 sample_m 和 sample_n 的“col1”在同一组。