应用错误收集

数据集缓存大小和RDD缓存大小有很大差异

时间：2018-08-27 03:54:21

标签： java apache-spark

首先，我使用SparkSQL读取200万行的表，然后将其缓存（数据集）。其次，做

JavaRDD javaRDD = dataset.javaRDD().cache();

第三，使用javaRDD创建一个DataFrame并将其缓存；最后，采取行动； Spark-UI中的存储标签如下图所示；为什么相同的数据在缓存大小上有很大的不同？ enter image description here

0 个答案:

没有答案