为什么spark.sql.orc.filterPushdown
的默认值在Spark中为假?
将spark.sql.orc.filterPushdown
的值设置为true
是否会产生一些性能开销,或者spark的orc读取功能存在某些限制?
答案 0 :(得分:0)
这可能是因为与旧格式的orc的spark集成不是很好,并且在某些情况下会引起问题。这些问题中的大多数似乎已通过新格式的ORC(具有更好的矢量化功能)和spark 2解决。
https://community.hortonworks.com/articles/148917/orc-improvements-for-apache-spark-22.html
https://issues.apache.org/jira/browse/SPARK-14962
https://community.hortonworks.com/questions/222760/spark-sql-limit-clause-performance-issues.html