应用错误收集

pyspark - 使用FAILFAST选项加载失败后捕获格式错误的JSON文件名

时间：2018-04-26 17:49:25

标签： pyspark pyspark-sql

要检测格式错误/损坏/不完整的JSON文件，我使用了FAILFAST选项，以便进程失败。如何从100s文件中捕获损坏的文件名，因为我需要从路径中删除该文件并从s3存储桶中复制好文件版本？

df = spark_session.read.json(table.load_path, mode='FAILFAST').cache()

0 个答案:

没有答案