我的数据按日期/ data / day = 20180720 /,/ data / day = 20180721 /等进行了“分区”。 我每天都在增加更多的列。
path = '/mydata/'
df = spark.read.option("mergeSchema", "true").parquet(path).filter(day in
('20180720', '20180721'))
df = df.withColumn(...)
使用这种方法,我得到了一个错误,我认为是来自损坏的文件。有没有办法跳过损坏的内容并继续阅读其他内容?