如何在遇到错误数据时以编程方式停止spark执行

时间:2016-08-16 23:11:42

标签: apache-spark yarn rdd

我想在RDD转换中添加数据有效性检查。停止处理无效数据的最优雅方法是什么?它在纱线集群中运行

1 个答案:

答案 0 :(得分:0)

使用过滤器转换并检查条件。它不会返回错误记录。现在将此RDD的计数与之前的RDD进行比较。当它较小时,触发一个条件。