为什么spark.sql.orc.filterPushdown默认为false?

时间:2019-03-14 11:49:15

标签: apache-spark apache-spark-sql orc

为什么spark.sql.orc.filterPushdown的默认值在Spark中为假?

spark.sql.orc.filterPushdown的值设置为true是否会产生一些性能开销,或者spark的orc读取功能存在某些限制?

1 个答案:

答案 0 :(得分:0)

这可能是因为与旧格式的orc的spark集成不是很好,并且在某些情况下会引起问题。这些问题中的大多数似乎已通过新格式的ORC(具有更好的矢量化功能)和spark 2解决。

https://community.hortonworks.com/articles/148917/orc-improvements-for-apache-spark-22.html
https://issues.apache.org/jira/browse/SPARK-14962
https://community.hortonworks.com/questions/222760/spark-sql-limit-clause-performance-issues.html