中止RDD映射(所有映射器)

时间:2018-07-18 14:04:27

标签: apache-spark rdd

我要处理的文件很大,已加载到RDD中,并使用map函数对其行进行了一些验证。 我有一组错误,即使在文件的一行上也遇到过,这些错误对于整个文件都是致命的。因此,一旦验证失败(节省时间),我想中止任何其他处理(整个集群中所有启动的映射器)。

是否可以存档?

谢谢。

PS:使用Spark 1.6,Java API

1 个答案:

答案 0 :(得分:0)

好吧,在进一步搜索并了解了Spark转换的惰性之后,我只需要做以下事情:

rdd.filter(checkFatal).take(1)

然后由于懒惰,一旦找到一条符合该规则的记录,处理就会自行停止:)

相关问题