pandas:使用已排序的MultiIndex连接两个DataFrame,使得result具有已排序的MultiIndex

时间:2018-05-16 21:24:14

标签: python pandas dataframe concat multi-index

请告诉我如何使用已排序的MultiIndex连接两个DataFrame,以便结果具有已排序的MultiIndex。

因为,两者都是排序的,算法必须在两个DataFrames中的行总数方面具有线性复杂度(这是合并2个排序列表的复杂性,这实际上是问题在这里。)

示例:

import pandas as pd
t1 = pd.DataFrame(data={'i1':[0,0,1,1,2,2],
                        'i2':[0,1,0,1,0,1],
                        'x':[1.,2.,3.,4.,5.,6.]})
t1.set_index(['i1','i2'], inplace=True)
t1.sort_index(inplace=True)
t2 = pd.DataFrame(data={'i1':[0,0,1,1,2,2],
                        'i2':[2,3,2,3,2,3],
                        'x':[7.,8.,9.,10.,11.,12.]})
t2.set_index(['i1','i2'], inplace=True)
t2.sort_index(inplace=True)
>>> print(t1)
         x
i1 i2     
0  0   1.0
   1   2.0
1  0   3.0
   1   4.0
2  0   5.0
   1   6.0

>>> print(t2)
          x
i1 i2      
0  2    7.0
   3    8.0
1  2    9.0
   3   10.0
2  2   11.0
   3   12.0

预期结果:

          x
i1 i2      
0  0    1.0
   1    2.0
   2    7.0
   3    8.0
1  0    3.0
   1    4.0
   2    9.0
   3   10.0
2  0    5.0
   1    6.0
   2   11.0
   3   12.0

感谢您的帮助!

1 个答案:

答案 0 :(得分:1)

这是一个候选答案。我仍在努力确认其算法效率。如果您有意见,请评论:

def linConcat(t1, t2):
    t = t1.reindex( index=t1.index.union(t2.index) )
    t.loc[t2.index,:] = t2
    return t
>>> linConcat(t1, t2)
          x
i1 i2      
0  0    1.0
   1    2.0
   2    7.0
   3    8.0
1  0    3.0
   1    4.0
   2    9.0
   3   10.0
2  0    5.0
   1    6.0
   2   11.0
   3   12.0