有效地合并熊猫中的多个数据帧

时间:2016-04-04 20:39:03

标签: python pandas

在pandas中合并多个数据帧(即超过2个)的最有效方法是什么?有几个答案:

  1. pandas joining multiple dataframes on columns
  2. Pandas left outer join multiple dataframes on multiple columns
  3. 但这些都涉及多个连接。如果我有N个数据帧,则需要N-1个连接。

    如果我没有使用pandas,另一种解决方案是将所有内容放入基于公共索引作为键的哈希表中并构建最终版本。这基本上就像SQL中的哈希联接我相信。在熊猫中有类似的东西吗?

    如果没有,用公共索引创建一个新数据帧并从每个数据帧传递原始数据会更有效吗?看起来这至少会阻止你在每个N-1连接中创建一个新的数据帧。

    感谢。

1 个答案:

答案 0 :(得分:2)

如果您可以按索引加入数据框,则可以在一个传送带上进行:

df1.join(df2).join(df3).join(df4)

示例:

In [187]: df1
Out[187]:
   a  b
0  5  2
1  6  7
2  6  5
3  1  6
4  0  2

In [188]: df2
Out[188]:
   c  d
0  5  7
1  5  5
2  2  4
3  4  3
4  9  0

In [189]: df3
Out[189]:
   e  f
0  8  1
1  0  9
2  4  5
3  3  9
4  9  5

In [190]: df1.join(df2).join(df3)
Out[190]:
   a  b  c  d  e  f
0  5  2  5  7  8  1
1  6  7  5  5  0  9
2  6  5  2  4  4  5
3  1  6  4  3  3  9
4  0  2  9  0  9  5

它应该非常快速有效

或者你可以连接它们:

In [191]: pd.concat([df1,df2,df3], axis=1)
Out[191]:
   a  b  c  d  e  f
0  5  2  5  7  8  1
1  6  7  5  5  0  9
2  6  5  2  4  4  5
3  1  6  4  3  3  9
4  0  2  9  0  9  5

每个100K行的3个DF的时间比较:

In [198]: %timeit pd.concat([df1,df2,df3], axis=1)
100 loops, best of 3: 5.67 ms per loop

In [199]: %timeit df1.join(df2).join(df3)
100 loops, best of 3: 3.93 ms per loop

因此您可以看到join更快一点