应用错误收集

pyspark读取了多个可能损坏的文件

时间：2018-09-12 23:23:59

标签： pyspark

我的数据按日期/ data / day = 20180720 /，/ data / day = 20180721 /等进行了“分区”。我每天都在增加更多的列。

path = '/mydata/'
df = spark.read.option("mergeSchema", "true").parquet(path).filter(day in 
('20180720', '20180721'))
df = df.withColumn(...)

使用这种方法，我得到了一个错误，我认为是来自损坏的文件。有没有办法跳过损坏的内容并继续阅读其他内容？

0 个答案:

没有答案