应用错误收集

如何将数据存储在不能驻留在火花存储器中的RDD中。

时间：2016-09-30 11:26:21

标签： scala apache-spark

这个问题可能过于基本，但有点坚持下去。我想使用数据框在Spark中处理两个Hive表数据，但是hive表中的数据对于Spark RDD来说太大了，我知道如果我在RDD中一次加载整个数据它会降低Spark性能，那么在这种情况下可以做些什么呢？

提前谢谢。

0 个答案:

没有答案