apache-spark - avro分区修剪如何在内部工作？

我有一份日常工作，将avro转换为镶木地板。每小时Avro文件为20G，并按年，月，日和小时进行分区当我按照以下方式读取avro文件时， spark.read.format("com.databricks.spark.avro").load(basePath).where($year=2020 and $month=9 and $day=1 and $hour=1).write.paritionBy(paritionCol).parquet(path)-作业运行1.5个小时注意：整个文件夹的basePath均具有36 TB的avro格式数据

但是，对于相同的火花配置（内存和实例等），以下命令仅运行7分钟。 spark.read.format("com.databricks.spark.avro").option("basePath", basePath).load(basePath + "year=2020/month=9/day=1/hour=1/").write.paritionBy(paritionCol).parquet(path)。为什么时间如此急剧减少？ avro如何在内部对分区进行修剪？

avro分区修剪如何在内部工作？

1 个答案: