Spark是否可以忽略由于帐户数据问题导致的任务失败,并继续其他帐户的作业过程?

时间:2019-09-22 05:17:35

标签: apache-spark bigdata

我希望Spark忽略由于数据问题而导致的某些失败的任务。另外,我希望Spark不会由于某些插入失败而停止整个工作。

1 个答案:

答案 0 :(得分:0)

如果使用数据块,则可以按照本文中的说明处理错误的记录和文件。 https://docs.databricks.com/spark/latest/spark-sql/handling-bad-records.html

从文档中:

  

Databricks提供了一个统一的接口来处理不良记录和   文件而不会中断Spark作业。您可以获取异常   通过设置数据从异常日志中记录/文件和原因   源选项badRecordsPath。 badRecordsPath指定要存储的路径   异常文件,用于记录有关不良记录的信息   CSV和JSON源以及所有基于文件的内置文件的错误文件   来源(例如Parquet)。

您还可以使用一些数据清理库,例如Pandas,Optimus,sparkling.data,spark vanilla,dora等。这将使您深入了解不良数据,并可以在对其进行分析之前修复数据。