标签: apache-spark-sql partitioning pyspark-sql orc
我们有一个DataFrame列,其中Transaction Date是timestamp。
DataFrame
Transaction Date
timestamp
当我们将DF作为ORC文件写入时,我们在交易日期值(不是仅时间戳日期值)上应用了分区逻辑,我们创建了一个单独的字段,仅用于对该分区应用分区字段。
ORC
如果我们再次以条件作为交易日期(时间戳)值读取ORC文件,它将修剪分区吗?
答案 0 :(得分:2)
不。您需要适当地引用“单独”字段。这是有道理的,并且是修剪分区的基本数据库规则。