在同一上下文中在不同作业之间触发共享缓存的内存

时间:2019-01-22 16:34:04

标签: apache-spark caching persist

在spark作业服务器中,我们可以创建上下文并在不同作业之间共享此上下文。当前,我想在一个上下文中多次运行同一作业,我的问题是我可以第一次加载数据并缓存或保留在内存中,而下一次我只是加载表单内存。

我该怎么办?

1 个答案:

答案 0 :(得分:0)

我找到一种方法,如下:

pd.to_datetime(['2019-01-15 13:30:00']).astype(int) / 10**9
# Float64Index([1547559000.0], dtype='float64')

当前,问题是如何检查缓存数据的日期?如果可以获取日期,则可以根据日期替换缓存的数据。