pyspark读取了多个可能损坏的文件

时间:2018-09-12 23:23:59

标签: pyspark

我的数据按日期/ data / day = 20180720 /,/ data / day = 20180721 /等进行了“分区”。 我每天都在增加更多的列。

path = '/mydata/'
df = spark.read.option("mergeSchema", "true").parquet(path).filter(day in 
('20180720', '20180721'))
df = df.withColumn(...)

使用这种方法,我得到了一个错误,我认为是来自损坏的文件。有没有办法跳过损坏的内容并继续阅读其他内容?

0 个答案:

没有答案