标签: scala apache-spark
这个问题可能过于基本,但有点坚持下去。 我想使用数据框在Spark中处理两个Hive表数据,但是hive表中的数据对于Spark RDD来说太大了,我知道如果我在RDD中一次加载整个数据它会降低Spark性能,那么在这种情况下可以做些什么呢?
提前谢谢。