在我们管理的ETL流程中,我们有时会收到损坏的文件。 我们尝试了这种Spark配置,它似乎可以正常工作(Spark作业不会失败,因为损坏的文件被丢弃了):

spark.sqlContext.setConf("spark.sql.files.ignoreCorruptFiles", "true")



RDD:spark.files.ignoreCorruptFiles 数据帧:spark.sql.files.ignoreCorruptFiles



  1. 从具有该ignoreCorruptFiles设置的位置读取所有内容
  2. 您可以使用input_file_name UDF获得每个记录所属的文件名。找出不同的名字。
  3. 分别获取相应目录中所有对象的列表
  4. 发现差异。
