如何将数据存储在不能驻留在火花存储器中的RDD中。

时间:2016-09-30 11:26:21

标签: scala apache-spark

这个问题可能过于基本,但有点坚持下去。 我想使用数据框在Spark中处理两个Hive表数据,但是hive表中的数据对于Spark RDD来说太大了,我知道如果我在RDD中一次加载整个数据它会降低Spark性能,那么在这种情况下可以做些什么呢?

提前谢谢。

0 个答案:

没有答案