如何在更改底层数据库表后设置DataFrame以刷新自身?

时间:2015-11-18 22:05:43

标签: apache-spark dataframe

我试图看看spark是否具有刷新DataFrame-RDD以反映从中加载DataFrame RDD的基础表的更改的能力。

E.g。

  1. 从表A加载的DataFrame。
  2. 表A更改
  3. DataFrame RDD是否会反映现在对表A的更改
  4. 如果Spark没有提供这样的选项,那么我是否必须通过ehCache或MemCache等维护某种缓存表?

1 个答案:

答案 0 :(得分:1)

Spark RDD si设计为不可变的,所以我认为你的欲望打破了Spark RDD的根本思想,所以没有。

其次认为你的想法有点难以实现,因为计算过程可能需要很长时间,而如果来源改变并且你的想法是真的,它如何处理运行时间的差距?不提及相同的RDD可以由多个进程共享。