熊猫在联接输出中合并处理重复项

时间:2018-11-11 00:36:13

标签: python pandas dataframe random merge

是否有一种不错的方法只带来一行,最好是在熊猫的左连接过程中以一对多匹配的方式随机出现?

例如

left = [[1,1,1], [2,2,2],[3,3,3], [9,9,9], [1,3,2]]
right = [[1,2,2],[1,2,3],[3,2,2], [3,2,9], [3,2,2]]
left = np.asarray(left)
right = np.asarray(right)
left = pd.DataFrame(left)
right = pd.DataFrame(right)
joined_left = left.merge(right, how="left", left_on=[0], right_on=[0])

这就是我们得到的

   0  1  2
0  1  1  1
1  2  2  2
2  3  3  3
3  9  9  9
4  1  3  2

   0  1  2
0  1  2  2
1  1  2  3
2  3  2  2
3  3  2  9
4  3  2  2

   0  1_x  2_x  1_y  2_y
0  1    1    1  2.0  2.0
1  1    1    1  2.0  3.0
2  2    2    2  NaN  NaN
3  3    3    3  2.0  2.0
4  3    3    3  2.0  9.0
5  3    3    3  2.0  2.0
6  9    9    9  NaN  NaN
7  1    3    2  2.0  2.0
8  1    3    2  2.0  3.0

所以现在我希望输出的大小与左数据帧的大小相同,并且当右数据帧中有多个匹配项时,我只想带一个随机列。

是否有使用熊猫捷径的好方法?

谢谢!

1 个答案:

答案 0 :(得分:1)

您可以先合并rightdrop_duplicates(...[, keep='first']),然后再合并。

right2 = right.sample(frac=1).drop_duplicates(subset=[0])
left.merge(right2, how='left', left_on=[0], right_on=[0])

   0  1_x  2_x  1_y  2_y
0  1    1    1  2.0  2.0
1  2    2    2  NaN  NaN
2  3    3    3  2.0  2.0
3  9    9    9  NaN  NaN
4  1    3    2  2.0  2.0

我们先随机播放right,然后删除除第一行(仅考虑列#0)以外的所有重复项,这与随机选择一行相同。