我正在尝试使用Spark(2.1 on EMR)进程~500M gz文件,我无法更改格式,也无法将它们拆分为更小的尺寸。
其中一位执行人员失败了:
var x = 1
var y = (x = 5) // "Assigments are not expressions, and only expressions are allowed in this context"
据我所知,由于gz不可拆分,因此单个任务处理整个文件,有什么办法可以某种方式避免错误吗?
答案 0 :(得分:3)
错误结果是在读取数据时没有直接,而是在处理之后。 我添加了一个解决问题的重新分区步骤。