我创建了一个Aggregation
对象来模拟pandas first
操作,它在dask数据帧中运行良好,但是当在延迟函数中使用时,它会给出一个pandas错误'Aggregation' object is not callable
,而在这种情况下,只使用熊猫第一作品。在后来的检查中,我发现在添加@delayed
装饰器时,接收Dask DataFrame的操作函数正在接收普通的pandas DataFrame。
显然,我不了解dask和分布式如何与底层数据结构协同工作,我不会在https://distributed.readthedocs.io/en/latest/manage-computation.html中看到这种差异。您能解释一下这些差异的低级细节,还是指出一些文档?
答案 0 :(得分:1)
dask.dataframe.Aggregation对象仅适用于dask数据帧,不适用于任何其他类型的dask对象。
Dask延迟通常在正常的内存数据上运行。根本没有应用复杂性或自动化。在使用dask.delayed时,所有设计自定义算法的工作都完全在你身上。