我有什么方法可以获取一个DataFrame(最初在Pandas中使用不同的随机种子进行采样,然后使用Dask返回多个Dataframe(每个随机种子一个)。
我对Dask的最原始的理解是我可以获取一个Dataframe,将其拆分,然后对其进行计算,但我想知道是否可以使用Dask解决此问题。
答案 0 :(得分:0)
当然,您可以使用Dask Delayed并行运行任意函数。
def sample(df: pandas.DataFrame, seed:int) -> pandas.DataFrame:
...
import dask
df = pandas.DataFrame(...)
dfs = [dask.delayed(sample)(df, seed) for seed in seeds]
dfs = dask.compute(*dfs)