在单个数据帧上进行计算后,使用Dask返回多个数据帧

时间:2019-06-28 00:06:25

标签: python-3.x pandas dask

我有什么方法可以获取一个DataFrame(最初在Pandas中使用不同的随机种子进行采样,然后使用Dask返回多个Dataframe(每个随机种子一个)。

我对Dask的最原始的理解是我可以获取一个Dataframe,将其拆分,然后对其进行计算,但我想知道是否可以使用Dask解决此问题。

1 个答案:

答案 0 :(得分:0)

当然,您可以使用Dask Delayed并行运行任意函数。

def sample(df: pandas.DataFrame, seed:int) -> pandas.DataFrame:
    ...

import dask

df = pandas.DataFrame(...)

dfs = [dask.delayed(sample)(df, seed) for seed in seeds]
dfs = dask.compute(*dfs)