Concat两个数据帧并从索引创建多索引

时间:2017-07-19 13:28:26

标签: python pandas dataframe multi-index

我有两个数据框df_1df_2

df_1 = pd.DataFrame({"A1":"1", "A2":"2", "A3":"3"}, index=[2411])
df_1.index.name = "i_1"
df_2 = pd.DataFrame({"B1":"4", "B2":"5", "B3":"6"}, index=[123122])
df_2.index.name = "i_2"

我希望连接它们,所以最终的DataFrames将如下所示:

                A1  A2  A3  B1  B2  B3
i_1     i_2                     
2411    123122  1   2   3   4   5   6

基本上,这是沿着轴1的连接,并且从索引中设置多索引。

我最接近所需结果的是:

df_1 = df_1.reset_index()
df_2 = df_2.reset_index()
df_f = pd.concat([df_1,df_2], axis=1)
df_f = pd.DataFrame(df_f, index=pd.MultiIndex.from_arrays([float(df_1["i_1"]), float(df_2["i_2"])], names=["i_1","i_2"]))
del df_f["i_1"]
del df_f["i_2"]

但结果是:

A1  A2  A3  B1  B2  B3
i_1 i_2                     
2411.0  123122.0    NaN NaN NaN NaN NaN NaN

1 个答案:

答案 0 :(得分:2)

对于默认索引,我认为两个df的最简单reset_index,因此concat对齐数据不错,最后set_index

df_f = pd.concat([df_1.reset_index(),df_2.reset_index()], axis=1).set_index(['i_1','i_2'])
print (df_f)
            A1 A2 A3 B1 B2 B3
i_1  i_2                     
2411 123122  1  2  3  4  5  6

在你的解决方案是问题不同的索引,所以在concat得到2行后,因为数据不能同步(不是相同的索引):

df_f = pd.concat([df_1,df_2], axis=1)
print (df_f)
         A1   A2   A3   B1   B2   B3
2411      1    2    3  NaN  NaN  NaN
123122  NaN  NaN  NaN    4    5    6

然后获取NaN,因为在DataFrame构造函数中创建了新的Multiindex但数据未再次归结 - 原始df_f中的数据大小为(2x6)并且需要分配到1,6结构,索引也不同。