pyspark - 使用FAILFAST选项加载失败后捕获格式错误的JSON文件名

时间:2018-04-26 17:49:25

标签: pyspark pyspark-sql

要检测格式错误/损坏/不完整的JSON文件,我使用了FAILFAST选项,以便进程失败。如何从100s文件中捕获损坏的文件名,因为我需要从路径中删除该文件并从s3存储桶中复制好文件版本?

df = spark_session.read.json(table.load_path, mode='FAILFAST').cache()

0 个答案:

没有答案