标签: pyspark pyspark-sql
要检测格式错误/损坏/不完整的JSON文件,我使用了FAILFAST选项,以便进程失败。如何从100s文件中捕获损坏的文件名,因为我需要从路径中删除该文件并从s3存储桶中复制好文件版本?
df = spark_session.read.json(table.load_path, mode='FAILFAST').cache()