标签: apache-spark yarn rdd
我想在RDD转换中添加数据有效性检查。停止处理无效数据的最优雅方法是什么?它在纱线集群中运行
答案 0 :(得分:0)
使用过滤器转换并检查条件。它不会返回错误记录。现在将此RDD的计数与之前的RDD进行比较。当它较小时,触发一个条件。