如何加入两个数据框并将所有关键列保留在熊猫中?

时间:2021-05-09 07:12:53

标签: python pandas dataframe

我需要使用相同的键来内部连接 ​​2 个数据帧 我在进行连接时创建了几个临时数据帧 下面的代码工作正常,但我想知道是否有办法在连接两个 Pandas 时保留两个连接键列下面以 subj 为键的数据框。

head = [['nationality', 'BART', 'USA']]
body = [['placeOfBirth', 'BART', 'NEWYORK'], ['hasFather', 'BART', 'HOMMER']]
head_df = pd.DataFrame(head, columns = ['pred', 'subj', 'obj'])
body_df = pd.DataFrame(body, columns = ['pred', 'subj', 'obj'])
joined_df = pd.merge(head_df, body1_df, how='inner' ,on='subj')

我有这两个数据框

head_df :

          pred  subj  obj
0  nationality  BART  USA

body_df :

           pred  subj      obj
0  placeOfBirth  BART  NEWYORK
1     hasFather  BART   HOMMER

我想加入(内部)这两个基于 subj (head_df) 和 subj (body_df) 的数据帧。

我想要的输出是

        pred_x subj_x obj_x        pred_y subj_y    obj_y
0  nationality   BART   USA  placeOfBirth   BART  NEWYORK
1  nationality   BART   USA     hasFather   BART   HOMMER

谢谢

1 个答案:

答案 0 :(得分:1)

如果您想将“_x”和“_y”添加到列标签,请使用 suffixes

joined_df = pd.merge(head_df, body_df, how='inner', on='subj', suffixes=['_x', '_y'])

结果将是:

    pred_x  subj    obj_x   pred_y  obj_y
0   nationality BART    USA placeOfBirth    NEWYORK
1   nationality BART    USA hasFather   HOMMER

我不知道你为什么需要重复的连接列。只复制这些列怎么样?

joined_df = pd.merge(head_df, body_df, how='inner', on='subj', suffixes=['_x', '_y'])
joined_df.rename(columns={'subj':'subj_x'}, inplace=True)
joined_df['subj_y'] = joined_df['subj_x']

结果将是:

    pred_x  subj_x  obj_x   pred_y  obj_y   subj_y
0   nationality BART    USA placeOfBirth    NEWYORK BART
1   nationality BART    USA hasFather   HOMMER  BART