标签: apache-spark
大规模地,我的Spark应用程序将处理大量数据(许多TB)。我的许多转换都在每条记录上执行复杂的任务。我想知道出于可追溯性原因,在每次转换期间哪些记录会引发错误。我考虑得越多,似乎火花并不是真正为此设计的。我唯一能做的就是将每个记录包装在Try()中,然后将结果RDD分为成功和失败并写出输出。这样做花的时间更长,并且需要缓存结果RDD,因为我将结果RDD拆分为两个较小的RDD(成功和失败)。有没有一种计算便宜的方法可以实现我的目标?