Question

如果不进行并行编程，我可以使用下面的代码合并key列上的左右数据帧，但由于两者都非常大，因此速度太慢。我有什么方法可以有效地并行化吗？

我有64个核心，所以实际上我可以使用其中的63个来合并这两个数据帧。

left = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                      'A': ['A0', 'A1', 'A2', 'A3'],
                     'B': ['B0', 'B1', 'B2', 'B3']})


right = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                      'C': ['C0', 'C1', 'C2', 'C3'],
                      'D': ['D0', 'D1', 'D2', 'D3']})


result = pd.merge(left, right, on='key')

输出将是：

left:
    A   B key
0  A0  B0  K0
1  A1  B1  K1
2  A2  B2  K2
3  A3  B3  K3

right:
    C   D key
0  C0  D0  K0
1  C1  D1  K1
2  C2  D2  K2
3  C3  D3  K3

result:
    A   B key   C   D
0  A0  B0  K0  C0  D0
1  A1  B1  K1  C1  D1
2  A2  B2  K2  C2  D2
3  A3  B3  K3  C3  D3

我想要并行执行此操作，以便我能够快速完成。

Answer 1

我相信你可以使用dask。和功能merge。

Docs说：

什么绝对有用？

巧妙的可并行化操作（也很快）：

加入索引： dd.merge（df1，df2，left_index = True，right_index = True）

或者：

需要随机播放的操作（慢速，除非是索引）

设置索引： df.set_index（df.x）

不加入指数： pd.merge（df1，df2，on ='name'）

您还可以查看Create Dask DataFrames的方式。

示例

import pandas as pd left = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'], 'A': ['A0', 'A1', 'A2', 'A3'], 'B': ['B0', 'B1', 'B2', 'B3']}) right = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'], 'C': ['C0', 'C1', 'C2', 'C3'], 'D': ['D0', 'D1', 'D2', 'D3']}) result = pd.merge(left, right, on='key') print result A B key C D 0 A0 B0 K0 C0 D0 1 A1 B1 K1 C1 D1 2 A2 B2 K2 C2 D2 3 A3 B3 K3 C3 D3 import dask.dataframe as dd #Construct a dask objects from a pandas objects left1 = dd.from_pandas(left, npartitions=3) right1 = dd.from_pandas(right, npartitions=3) #merge on key print dd.merge(left1, right1, on='key').compute() A B key C D 0 A3 B3 K3 C3 D3 1 A1 B1 K1 C1 D1 0 A2 B2 K2 C2 D2 1 A0 B0 K0 C0 D0

#first set indexes and then merge by them print dd.merge(left1.set_index('key').compute(), right1.set_index('key').compute(), left_index=True, right_index=True) A B C D key K0 A0 B0 C0 D0 K1 A1 B1 C1 D1 K2 A2 B2 C2 D2 K3 A3 B3 C3 D3

Answer 2

您可以通过将key列设置为数据框的索引并使用join来提高合并的速度（在给定示例中约为3倍）。

left2 = left.set_index('key')
right2 = right.set_index('key')

In [46]: %timeit result2 = left2.join(right2)
1000 loops, best of 3: 361 µs per loop

In [47]: %timeit result = pd.merge(left, right, on='key')
1000 loops, best of 3: 1.01 ms per loop

如何并行合并两个pandas数据帧（多线程或多处理）

2 个答案: