Question

在spark作业服务器中，我们可以创建上下文并在不同作业之间共享此上下文。当前，我想在一个上下文中多次运行同一作业，我的问题是我可以第一次加载数据并缓存或保留在内存中，而下一次我只是加载表单内存。

我该怎么办？

Answer 1

我找到一种方法，如下：

pd.to_datetime(['2019-01-15 13:30:00']).astype(int) / 10**9
# Float64Index([1547559000.0], dtype='float64')

当前，问题是如何检查缓存数据的日期？如果可以获取日期，则可以根据日期替换缓存的数据。