我阅读了以下SO thead,现在我正在尝试理解它。这是我的例子:
import dask.dataframe as dd
import pandas as pd
from dask.multiprocessing import get
import random
df = pd.DataFrame({'col_1':random.sample(range(10000), 10000), 'col_2': random.sample(range(10000), 10000) })
def test_f(col_1, col_2):
return col_1*col_2
ddf = dd.from_pandas(df, npartitions=8)
ddf['result'] = ddf.map_partitions(test_f, columns=['col_1', 'col_2']).compute(get=get)
它会在下面生成以下错误。我究竟做错了什么?另外我不清楚如何在map_partitions
中传递其他参数?
---------------------------------------------------------------------------
TypeError Traceback (most recent call last)
~\AppData\Local\conda\conda\envs\tensorflow\lib\site-packages\dask\dataframe\utils.py in raise_on_meta_error(funcname)
136 try:
--> 137 yield
138 except Exception as e:
~\AppData\Local\conda\conda\envs\tensorflow\lib\site-packages\dask\dataframe\core.py in _emulate(func, *args, **kwargs)
3130 with raise_on_meta_error(funcname(func)):
-> 3131 return func(*_extract_meta(args, True), **_extract_meta(kwargs, True))
3132
TypeError: test_f() got an unexpected keyword argument 'columns'
During handling of the above exception, another exception occurred:
ValueError Traceback (most recent call last)
<ipython-input-9-913789c7326c> in <module>()
----> 1 ddf['result'] = ddf.map_partitions(test_f, columns=['col_1', 'col_2']).compute(get=get)
~\AppData\Local\conda\conda\envs\tensorflow\lib\site-packages\dask\dataframe\core.py in map_partitions(self, func, *args, **kwargs)
469 >>> ddf.map_partitions(func).clear_divisions() # doctest: +SKIP
470 """
--> 471 return map_partitions(func, self, *args, **kwargs)
472
473 @insert_meta_param_description(pad=12)
~\AppData\Local\conda\conda\envs\tensorflow\lib\site-packages\dask\dataframe\core.py in map_partitions(func, *args, **kwargs)
3163
3164 if meta is no_default:
-> 3165 meta = _emulate(func, *args, **kwargs)
3166
3167 if all(isinstance(arg, Scalar) for arg in args):
~\AppData\Local\conda\conda\envs\tensorflow\lib\site-packages\dask\dataframe\core.py in _emulate(func, *args, **kwargs)
3129 """
3130 with raise_on_meta_error(funcname(func)):
-> 3131 return func(*_extract_meta(args, True), **_extract_meta(kwargs, True))
3132
3133
~\AppData\Local\conda\conda\envs\tensorflow\lib\contextlib.py in __exit__(self, type, value, traceback)
75 value = type()
76 try:
---> 77 self.gen.throw(type, value, traceback)
78 except StopIteration as exc:
79 # Suppress StopIteration *unless* it's the same exception that
~\AppData\Local\conda\conda\envs\tensorflow\lib\site-packages\dask\dataframe\utils.py in raise_on_meta_error(funcname)
148 ).format(" in `{0}`".format(funcname) if funcname else "",
149 repr(e), tb)
--> 150 raise ValueError(msg)
151
152
ValueError: Metadata inference failed in `test_f`.
Original error is below:
------------------------
TypeError("test_f() got an unexpected keyword argument 'columns'",)
Traceback:
---------
File "C:\Users\some_user\AppData\Local\conda\conda\envs\tensorflow\lib\site-packages\dask\dataframe\utils.py", line 137, in raise_on_meta_error
yield
File "C:\Users\some_user\AppData\Local\conda\conda\envs\tensorflow\lib\site-packages\dask\dataframe\core.py", line 3131, in _emulate
return func(*_extract_meta(args, True), **_extract_meta(kwargs, True))
答案 0 :(得分:11)
map_partitions
docs中有一个示例可以完全实现目标:
<div className="panel">
<div className="panel-body">
<div className="accordion">
<div className="accordion-section">
<div className="accordion-section-header-container">
<span className="accodion-header">
<label>HEADER</label>
<span classname="arrow"/>
</div>
</div>
<div className=accordion-section-body>
<ul className="list">
<li>
.
.
.
.
</li>
</ul>
</div>
</div>
</div>
</div>
当您致电ddf.map_partitions(lambda df: df.assign(z=df.x * df.y))
时(就像您在map_partitions
上致电.apply()
一样),您尝试pandas.DataFrame
(或map
)的功能将会将数据帧作为第一个参数。
如果是apply
,则第一个参数将是分区,如果是dask.dataframe.map_partitions
,则为整个数据框。
这意味着您的函数必须接受数据框(分区)作为第一个参数,并且在您的情况下可能如下所示:
pandas.DataFrame.apply
请注意,在您调用def test_f(df, col_1, col_2):
return df.assign(result=df[col_1] * df[col_2])
之前,会发生在这种情况下分配新列(即计划发生)。
在您的示例中,您在调用.compute()
之后指定了列,这种方法违背了使用dask的目的。即在您致电.compute()
之后,如果有足够的空间,那么该操作的结果会被加载到内存中(如果不是,您只需获得.compute()
)。
因此,对于您工作的示例,您可以:
1)使用函数(列名作为参数):
MemoryError
2)使用def test_f(df, col_1, col_2):
return df.assign(result=df[col_1] * df[col_2])
ddf_out = ddf.map_partitions(test_f, 'col_1', 'col_2')
# Here is good place to do something with BIG ddf_out dataframe before calling .compute()
result = ddf_out.compute(get=get) # Will load the whole dataframe into memory
(在函数中硬编码列名称):
lambda
<强>更新强>
要逐行应用函数,以下是您链接的帖子的引用:
ddf_out = ddf.map_partitions(lambda df: df.assign(result=df.col_1 * df.col_2)) # Here is good place to do something with BIG ddf_out dataframe before calling .compute() result = ddf_out.compute(get=get) # Will load the whole dataframe into memory
/map
您可以使用
apply
在一个系列中逐行映射函数
map
您可以使用
在数据框中逐行映射函数df.mycolumn.map(func)
apply
即。对于您问题中的示例函数,它可能如下所示:
df.apply(func, axis=1)
由于您将逐行应用它,因此函数的第一个参数将是一个序列(即数据帧的每一行都是一个系列)。
要应用此功能,您可以这样称呼它:
def test_f(dds, col_1, col_2):
return dds[col_1] * dds[col_2]
这将返回一个名为dds_out = ddf.apply(
test_f,
args=('col_1', 'col_2'),
axis=1,
meta=('result', int)
).compute(get=get)
的系列。
我猜你也可以用一个函数在每个分区上调用'result'
,但它看起来效率不高,直接在数据帧上调用.apply
。但可能是你的测试证明不然。
答案 1 :(得分:5)
您的test_f
有两个参数:col_1
和col_2
。您传递了一个参数ddf
。
尝试类似
的内容In [5]: dd.map_partitions(test_f, ddf['col_1'], ddf['col_2'])
Out[5]:
Dask Series Structure:
npartitions=8
0 int64
1250 ...
...
8750 ...
9999 ...
dtype: int64
Dask Name: test_f, 32 tasks