如何结合来自两个数据帧的信息

时间:2021-02-24 03:47:39

标签: python-3.x pandas dataframe

我有 N 个分布样本(我们称之为 Sample_N),每个样本都有“col1”和“col2”作为特征。基于特征“col2”,运行k-means聚类算法将N个样本聚类为M个质心。然后质心用于计算与不同分布的另一个 M 个样本(我们称之为 Sample_M)作为 N 个样本的相似性。但是,Sample_M 和 Sample_N 具有相同的列“col1”。所以最后我有一个 M × M 矩阵如下:

0 1 2 3 4 M
1 # # # # #
2 $ $ $ $ $
3
4
M

因此,如果我选择“#”行的最大值,我可以获得 Sample_M 中与 centroid_1 最相似的样本。Sample_M 中与 centroid_2 中最相似样本的“$”行的最大值等。

现在我有另一个数据框如下:

sample_id    centroid
1            1 
2            2
3            2
4            1
...          ...
N            M

它包含“原始N个样本属于M个质心中的哪一个?”的信息

除此之外,我还根据“col1”功能对 Sample_M 样本进行了聚类。它们在以下数据框中表示:

GroupNo   col1
1         11374620
1         118519361
2         118525235
...       ...
300       490028653

请注意,Sample_M 也将列“col1”作为 Sample_N。

这是我的问题:对于 Sample_N 中的每个样本(例如“sample_n”),鉴于 sample_m 和 sample_n 的“col1”在同一组。

0 个答案:

没有答案