应用错误收集

Spark是否可以忽略由于帐户数据问题导致的任务失败，并继续其他帐户的作业过程？

时间：2019-09-22 05:17:35

标签： apache-spark bigdata

我希望Spark忽略由于数据问题而导致的某些失败的任务。另外，我希望Spark不会由于某些插入失败而停止整个工作。

1 个答案:

答案 0 :(得分：0)

如果使用数据块，则可以按照本文中的说明处理错误的记录和文件。 https://docs.databricks.com/spark/latest/spark-sql/handling-bad-records.html

从文档中：

Databricks提供了一个统一的接口来处理不良记录和文件而不会中断Spark作业。您可以获取异常通过设置数据从异常日志中记录/文件和原因源选项badRecordsPath。 badRecordsPath指定要存储的路径异常文件，用于记录有关不良记录的信息 CSV和JSON源以及所有基于文件的内置文件的错误文件来源（例如Parquet）。

您还可以使用一些数据清理库，例如Pandas，Optimus，sparkling.data，spark vanilla，dora等。这将使您深入了解不良数据，并可以在对其进行分析之前修复数据。