我有一个类似数据库的对象,包含许多dask数据帧。我想处理数据,保存并在第二天重新加载以继续分析。
因此,我尝试使用pickle保存dask数据帧(不是计算结果,只是"计算计划"本身)。显然,它起作用(至少,如果我在同一台机器上取消对象)......但是有一些陷阱吗?
答案 0 :(得分:2)
一般来说,通常是安全的。但是有一些警告:
df.apply(lambda x: x)
,则内部函数将不是pickleable。但是,它仍然可以使用cloudpickle dask.distributed
Future
个对象,例如在群集上使用Executor.persist
时会出现这些对象,那么这些对象目前无法序列化。