apache-spark - 如何在更改底层数据库表后设置DataFrame以刷新自身？ - Thinbug

如何在更改底层数据库表后设置DataFrame以刷新自身？

时间：2015-11-18 22:05:43

标签： apache-spark dataframe

我试图看看spark是否具有刷新DataFrame-RDD以反映从中加载DataFrame RDD的基础表的更改的能力。

E.g。

从表A加载的DataFrame。
表A更改
DataFrame RDD是否会反映现在对表A的更改

如果Spark没有提供这样的选项，那么我是否必须通过ehCache或MemCache等维护某种缓存表？

1 个答案:

答案 0 :(得分：1)

Spark RDD si设计为不可变的，所以我认为你的欲望打破了Spark RDD的根本思想，所以没有。

其次认为你的想法有点难以实现，因为计算过程可能需要很长时间，而如果来源改变并且你的想法是真的，它如何处理运行时间的差距？不提及相同的RDD可以由多个进程共享。