我试图看看spark是否具有刷新DataFrame-RDD以反映从中加载DataFrame RDD的基础表的更改的能力。
E.g。
如果Spark没有提供这样的选项,那么我是否必须通过ehCache或MemCache等维护某种缓存表?
答案 0 :(得分:1)
Spark RDD si设计为不可变的,所以我认为你的欲望打破了Spark RDD的根本思想,所以没有。
其次认为你的想法有点难以实现,因为计算过程可能需要很长时间,而如果来源改变并且你的想法是真的,它如何处理运行时间的差距?不提及相同的RDD可以由多个进程共享。