Question

所以我有两个通过

创建的pandas数据帧

df1 = pd.read_cvs("first1.csv")
df2 = pd.read_csv("second2.csv")

这两个都有列column1。要仔细检查，

print(df1.columns)
print(df2.columns)

都返回列'column1'。

所以，我想将这两个数据帧与dask合并，在本地使用60个线程（使用外部合并）：

dd1 = dd.merge(df1, df2, on="column1", how="outer", suffixes=("","_repeat")).compute(num_workers=60)

失败时出现KeyError KeyError: 'column1'

Traceback (most recent call last):
  File "INSTALLATIONPATH/python3.5/site-packages/pandas/indexes/base.py", line 2134, in get_loc
    return self._engine.get_loc(key)
  File "pandas/index.pyx", line 139, in pandas.index.IndexEngine.get_loc (pandas/index.c:4443)
  File "pandas/index.pyx", line 161, in pandas.index.IndexEngine.get_loc (pandas/index.c:4289)
  File "pandas/src/hashtable_class_helper.pxi", line 732, in pandas.hashtable.PyObjectHashTable.get_item (pandas/hashtable.c:13733)
  File "pandas/src/hashtable_class_helper.pxi", line 740, in pandas.hashtable.PyObjectHashTable.get_item (pandas/hashtable.c:13687)
KeyError: 'column1'

我认为这是一项可并行化的任务，即dd.merge(df1, df2, on='id')

是否有＆＃34; dask-equivalent＆＃34;为此操作？我还尝试重新编译chr上的pandas数据帧（即df1 = df1.reset_index('chr')），然后尝试加入索引

 dd.merge(df1, df2, left_index=True, right_index=True)

那也没有用，同样的错误。

http://dask.pydata.org/en/latest/dataframe-overview.html

Answer 1

根据您的错误，我会仔细检查您的初始数据框，以确保您在两个（没有额外的空格或任何内容）中都有column1作为实际列，因为它应该可以正常工作（以下没有错误）代码）

此外，在pandas.DataFrame或Dask.dataframe上调用合并之间存在差异。

以下是一些示例数据：

df1 = pd.DataFrame(np.transpose([np.arange(1000),
                           np.arange(1000)]), columns=['column1','column1_1'])

df2 = pd.DataFrame(np.transpose([np.arange(1000),
                           np.arange(1000, 2000)]), columns=['column1','column1_2'])

他们的dask等价物：

ddf1 = dd.from_pandas(df1, npartitions=100)
ddf2 = dd.from_pandas(df2, npartitions=100)

使用pandas.DataFrame：

In [1]: type(dd.merge(df1, df2, on="column1", how="outer"))

Out [1]: pandas.core.frame.DataFrame

因此，这会返回一个pandas.DataFrame，因此您无法在其上调用compute()。

使用dask.dataframe：

In [2]: type(dd.merge(ddf1, ddf2, on="column1", how="outer"))
Out[2]: dask.dataframe.core.DataFrame

您可以在此致电compute：

In [3]: dd.merge(ddf1,ddf2, how='outer').compute(num_workers=60)

Out[3]:
   column1  column1_1  column1_2
0        0          0       1000
1      400        400       1400
2      100        100       1100
3      500        500       1500
4      300        300       1300

旁注：根据您的数据和硬件的大小，您可能需要检查执行pandas.join是否会更快：

df1.set_index('column1').join(df2.set_index('column1'), how='outer').reset_index()

对于每个df使用(1 000 000, 2)的大小，它比我硬件上的dask解决方案更快。

使用`dask.merge（）`的KeyError

1 个答案: