如果我有一个模糊的数据框df。现在,我对其进行一些计算。
在数学上,
df1 = f1(df)
df2 = f2(df1)
df3 = f3(df1)
现在,如果我运行df2.compute()
,现在,如果我运行df1.compute()
。如何阻止dask重新计算df1
的结果?
反之,如果我运行df3.compute()
,则运行df2.compute()
。如何在运行df1
时告诉dask使用df3.compute()
的已计算值(在df2.compute()
中计算)?
答案 0 :(得分:1)
您可以使用dask.persist
创建带有已计算或正在计算的子图的dask数据框。
如果您正在使用本地调度程序,则应查看dask.cache.Cache
from dask.cache import Cache
cache = Cache(4e9).register()