火花输入尺寸错误。 (输入数据的大小改变)

时间:2018-10-30 12:17:33

标签: apache-spark

我的输入数据大小为5GB,我使用spark命令制作了RDD

inputData = sc.textFile(inputPath).cache();

然后我运行我的spark应用程序(如下图)

enter image description here

在上图中,第一次数据处理(0〜1)产生4.8GB的输入大小。但是,从第二秒(2〜)开始,数据输入大小增加到20GB。

数据输入大小是否必须为4.8GB? 为什么会增长到20GB? 缓存()有问题吗?

0 个答案:

没有答案