我要处理的文件很大,已加载到RDD中,并使用map函数对其行进行了一些验证。 我有一组错误,即使在文件的一行上也遇到过,这些错误对于整个文件都是致命的。因此,一旦验证失败(节省时间),我想中止任何其他处理(整个集群中所有启动的映射器)。
是否可以存档?
谢谢。
PS:使用Spark 1.6,Java API
答案 0 :(得分:0)
好吧,在进一步搜索并了解了Spark转换的惰性之后,我只需要做以下事情:
rdd.filter(checkFatal).take(1)
然后由于懒惰,一旦找到一条符合该规则的记录,处理就会自行停止:)