Spark错误:java.lang.IllegalArgumentException:读取大型zip文件时大小超过Integer.MAX_VALUE

时间:2017-05-21 15:04:24

标签: apache-spark

我正在尝试使用Spark(2.1 on EMR)进程~500M gz文件,我无法更改格式,也无法将它们拆分为更小的尺寸。

其中一位执行人员失败了:

var x = 1
var y = (x = 5) // "Assigments are not expressions, and only expressions are allowed in this context"

据我所知,由于gz不可拆分,因此单个任务处理整个文件,有什么办法可以某种方式避免错误吗?

1 个答案:

答案 0 :(得分:3)

错误结果是在读取数据时没有直接,而是在处理之后。 我添加了一个解决问题的重新分区步骤。