Question

我有 N 个分布样本（我们称之为 Sample_N），每个样本都有“col1”和“col2”作为特征。基于特征“col2”，运行k-means聚类算法将N个样本聚类为M个质心。然后质心用于计算与不同分布的另一个 M 个样本（我们称之为 Sample_M）作为 N 个样本的相似性。但是，Sample_M 和 Sample_N 具有相同的列“col1”。所以最后我有一个 M × M 矩阵如下：

0 1 2 3 4 M
1 # # # # #
2 $ $ $ $ $
3
4
M

因此，如果我选择“#”行的最大值，我可以获得 Sample_M 中与 centroid_1 最相似的样本。Sample_M 中与 centroid_2 中最相似样本的“$”行的最大值等。

现在我有另一个数据框如下：

sample_id    centroid
1            1 
2            2
3            2
4            1
...          ...
N            M

它包含“原始N个样本属于M个质心中的哪一个？”的信息

除此之外，我还根据“col1”功能对 Sample_M 样本进行了聚类。它们在以下数据框中表示：

GroupNo   col1
1         11374620
1         118519361
2         118525235
...       ...
300       490028653

请注意，Sample_M 也将列“col1”作为 Sample_N。

这是我的问题：对于 Sample_N 中的每个样本（例如“sample_n”），鉴于 sample_m 和 sample_n 的“col1”在同一组。

如何结合来自两个数据帧的信息

0 个答案: