在spark作业服务器中,我们可以创建上下文并在不同作业之间共享此上下文。当前,我想在一个上下文中多次运行同一作业,我的问题是我可以第一次加载数据并缓存或保留在内存中,而下一次我只是加载表单内存。
我该怎么办?
答案 0 :(得分:0)
我找到一种方法,如下:
pd.to_datetime(['2019-01-15 13:30:00']).astype(int) / 10**9
# Float64Index([1547559000.0], dtype='float64')
当前,问题是如何检查缓存数据的日期?如果可以获取日期,则可以根据日期替换缓存的数据。