ORC文件上的Spark DataFrame分区修剪

时间:2018-07-09 08:25:08

标签: apache-spark-sql partitioning pyspark-sql orc

我们有一个DataFrame列,其中Transaction Datetimestamp

当我们将DF作为ORC文件写入时,我们在交易日期值(不是仅时间戳日期值)上应用了分区逻辑,我们创建了一个单独的字段,仅用于对该分区应用分区字段。

如果我们再次以条件作为交易日期(时间戳)值读取ORC文件,它将修剪分区吗?

1 个答案:

答案 0 :(得分:2)

不。您需要适当地引用“单独”字段。这是有道理的,并且是修剪分区的基本数据库规则。