我需要使用相同的键来内部连接 2 个数据帧 我在进行连接时创建了几个临时数据帧 下面的代码工作正常,但我想知道是否有办法在连接两个 Pandas 时保留两个连接键列下面以 subj 为键的数据框。
head = [['nationality', 'BART', 'USA']]
body = [['placeOfBirth', 'BART', 'NEWYORK'], ['hasFather', 'BART', 'HOMMER']]
head_df = pd.DataFrame(head, columns = ['pred', 'subj', 'obj'])
body_df = pd.DataFrame(body, columns = ['pred', 'subj', 'obj'])
joined_df = pd.merge(head_df, body1_df, how='inner' ,on='subj')
我有这两个数据框
head_df :
pred subj obj
0 nationality BART USA
body_df :
pred subj obj
0 placeOfBirth BART NEWYORK
1 hasFather BART HOMMER
我想加入(内部)这两个基于 subj (head_df) 和 subj (body_df) 的数据帧。
我想要的输出是
pred_x subj_x obj_x pred_y subj_y obj_y
0 nationality BART USA placeOfBirth BART NEWYORK
1 nationality BART USA hasFather BART HOMMER
谢谢
答案 0 :(得分:1)
如果您想将“_x”和“_y”添加到列标签,请使用 suffixes
。
joined_df = pd.merge(head_df, body_df, how='inner', on='subj', suffixes=['_x', '_y'])
结果将是:
pred_x subj obj_x pred_y obj_y
0 nationality BART USA placeOfBirth NEWYORK
1 nationality BART USA hasFather HOMMER
我不知道你为什么需要重复的连接列。只复制这些列怎么样?
joined_df = pd.merge(head_df, body_df, how='inner', on='subj', suffixes=['_x', '_y'])
joined_df.rename(columns={'subj':'subj_x'}, inplace=True)
joined_df['subj_y'] = joined_df['subj_x']
结果将是:
pred_x subj_x obj_x pred_y obj_y subj_y
0 nationality BART USA placeOfBirth NEWYORK BART
1 nationality BART USA hasFather HOMMER BART