应用错误收集

火花输入尺寸错误。（输入数据的大小改变）

时间：2018-10-30 12:17:33

标签： apache-spark

我的输入数据大小为5GB，我使用spark命令制作了RDD

inputData = sc.textFile(inputPath).cache();

然后我运行我的spark应用程序（如下图）

在上图中，第一次数据处理（0〜1）产生4.8GB的输入大小。但是，从第二秒（2〜）开始，数据输入大小增加到20GB。

数据输入大小是否必须为4.8GB？为什么会增长到20GB？缓存（）有问题吗？

0 个答案:

没有答案