如何在具有不同级别数的MultiIndex上加入2个pandas DataFrame?
import pandas as pd
t1 = pd.DataFrame(data={'a1':[0,0,1,1,2,2],
'a2':[0,1,0,1,0,1],
'x':[1.,2.,3.,4.,5.,6.]})
t1.set_index(['a1','a2'], inplace=True)
t1.sort_index(inplace=True)
t2 = pd.DataFrame(data={'b1':[0,1,2],
'y':[20.,40.,60.]})
t2.set_index(['b1'], inplace=True)
t2.sort_index(inplace=True)
>>> t1
x
a1 a2
0 0 1.0
1 2.0
1 0 3.0
1 4.0
2 0 5.0
1 6.0
>>> t2
y
b1
0 20.0
1 40.0
2 60.0
加入' a1'的预期结果=> ' B1':
x y
a1 a2
0 0 1.0 20.0
1 2.0 20.0
1 0 3.0 40.0
1 4.0 40.0
2 0 5.0 60.0
1 6.0 60.0
另一个例子:加入[' a1',' a2'] => [' B1'' B2']:
import pandas as pd, numpy as np
t1 = pd.DataFrame(data={'a1':[0,0,0,0,1,1,1,1,2,2,2,2],
'a2':[3,3,4,4,3,3,4,4,3,3,4,4],
'a3':[7,8,7,8,7,8,7,8,7,8,7,8],
'x':[1.,2.,3.,4.,5.,6.,7.,8.,9.,10.,11.,12.]})
t1.set_index(['a1','a2','a3'], inplace=True)
t1.sort_index(inplace=True)
t2 = pd.DataFrame(data={'b1':[0,0,1,1,2,2],
'b2':[3,4,3,4,3,4],
'y':[10.,20.,30.,40.,50.,60.]})
t2.set_index(['b1','b2'], inplace=True)
t2.sort_index(inplace=True)
>>> t1
x
a1 a2 a3
0 3 7 1.0
8 2.0
4 7 3.0
8 4.0
1 3 7 5.0
8 6.0
4 7 7.0
8 8.0
2 3 7 9.0
8 10.0
4 7 11.0
8 12.0
>>> t2
y
b1 b2
0 3 10.0
4 20.0
1 3 30.0
4 40.0
2 3 50.0
4 60.0
加入[' a1',' a2'] =>的预期结果[' B1'' B2']:
x y
a1 a2 a3
0 3 7 1.0 10.0
8 2.0 10.0
4 7 3.0 20.0
8 4.0 20.0
1 3 7 5.0 30.0
8 6.0 30.0
4 7 7.0 40.0
8 8.0 40.0
2 3 7 9.0 50.0
8 10.0 50.0
4 7 11.0 60.0
8 12.0 60.0
解决方案应该可以在多个索引级别上加入。
感谢您的帮助!
答案 0 :(得分:2)
您可以使用pd.Index.get_level_values
并映射t2
:
t1['y'] = t1.index.get_level_values(0).map(t2['y'].get)
print(t1)
x y
a1 a2
0 0 1.0 20.0
1 2.0 20.0
1 0 3.0 40.0
1 4.0 40.0
2 0 5.0 60.0
1 6.0 60.0
答案 1 :(得分:1)
您可以直接在t1
中名为t2
的索引级别和a1
的单个索引合并t1
和t2
:
t1.merge(t2, left_on = t1.index.get_level_values('a1').values, right_index=True)
x y
a1 a2
0 0 1.0 20.0
1 2.0 20.0
1 0 3.0 40.0
1 4.0 40.0
2 0 5.0 60.0
1 6.0 60.0
答案 2 :(得分:1)
在t2
上使用reindex
,根据需要设置level
参数,然后直接分配到t1
:
t1['y'] = t2['y'].reindex(t1.index, level='a1')
x y
a1 a2
0 0 1.0 20.0
1 2.0 20.0
1 0 3.0 40.0
1 4.0 40.0
2 0 5.0 60.0
1 6.0 60.0
要在多个级别重新编制索引,只需将列表作为level
参数传递,例如['a1', 'a2'
]。
答案 3 :(得分:0)
在第二个例子中进行连接的缓慢方法:
for col in t2.columns:
for i2 in t2.index:
t1.loc[i2+(slice(None),),col] = t2.loc[i2,col]
任务是对其进行矢量化并在创建t1索引项时将slice(None)自动放入正确的位置。
第二个例子的矢量化版本:
m = list(zip(t1.index.get_level_values('a1'), t1.index.get_level_values('a2')))
t1 = t1.assign(**dict(zip(t2.columns,[np.nan]*len(t2.columns))))
t1[t2.columns] = t2.loc[m,:].values
第一个例子的矢量化版本:
m = t1.index.get_level_values('a1')
t1 = t1.assign(**dict(zip(t2.columns,[np.nan]*len(t2.columns))))
t1[t2.columns] = t2.loc[m,:].values
答案 4 :(得分:0)
第一个示例的解决方案:
t1.reset_index('a2', drop=False).join(t2
).rename_axis('a1').set_index('a2', append=True)
第二个示例的解决方案:
t1.reset_index('a3', drop=False).join(
t2.rename_axis(index={'b1':'a1', 'b2':'a2'})
).set_index('a3', append=True)