标签: apache-spark
我的输入数据大小为5GB,我使用spark命令制作了RDD
inputData = sc.textFile(inputPath).cache();
然后我运行我的spark应用程序(如下图)
在上图中,第一次数据处理(0〜1)产生4.8GB的输入大小。但是,从第二秒(2〜)开始,数据输入大小增加到20GB。
数据输入大小是否必须为4.8GB? 为什么会增长到20GB? 缓存()有问题吗?