请告诉我如何使用已排序的MultiIndex连接两个DataFrame,以便结果具有已排序的MultiIndex。
因为,两者都是排序的,算法必须在两个DataFrames中的行总数方面具有线性复杂度(这是合并2个排序列表的复杂性,这实际上是问题在这里。)
示例:
import pandas as pd
t1 = pd.DataFrame(data={'i1':[0,0,1,1,2,2],
'i2':[0,1,0,1,0,1],
'x':[1.,2.,3.,4.,5.,6.]})
t1.set_index(['i1','i2'], inplace=True)
t1.sort_index(inplace=True)
t2 = pd.DataFrame(data={'i1':[0,0,1,1,2,2],
'i2':[2,3,2,3,2,3],
'x':[7.,8.,9.,10.,11.,12.]})
t2.set_index(['i1','i2'], inplace=True)
t2.sort_index(inplace=True)
>>> print(t1)
x
i1 i2
0 0 1.0
1 2.0
1 0 3.0
1 4.0
2 0 5.0
1 6.0
>>> print(t2)
x
i1 i2
0 2 7.0
3 8.0
1 2 9.0
3 10.0
2 2 11.0
3 12.0
预期结果:
x
i1 i2
0 0 1.0
1 2.0
2 7.0
3 8.0
1 0 3.0
1 4.0
2 9.0
3 10.0
2 0 5.0
1 6.0
2 11.0
3 12.0
感谢您的帮助!
答案 0 :(得分:1)
这是一个候选答案。我仍在努力确认其算法效率。如果您有意见,请评论:
def linConcat(t1, t2):
t = t1.reindex( index=t1.index.union(t2.index) )
t.loc[t2.index,:] = t2
return t
>>> linConcat(t1, t2)
x
i1 i2
0 0 1.0
1 2.0
2 7.0
3 8.0
1 0 3.0
1 4.0
2 9.0
3 10.0
2 0 5.0
1 6.0
2 11.0
3 12.0