应用错误收集

为什么spark.sql.orc.filterPushdown默认为false？

时间：2019-03-14 11:49:15

标签： apache-spark apache-spark-sql orc

为什么spark.sql.orc.filterPushdown的默认值在Spark中为假？

将spark.sql.orc.filterPushdown的值设置为true是否会产生一些性能开销，或者spark的orc读取功能存在某些限制？

1 个答案:

答案 0 :(得分：0)

这可能是因为与旧格式的orc的spark集成不是很好，并且在某些情况下会引起问题。这些问题中的大多数似乎已通过新格式的ORC（具有更好的矢量化功能）和spark 2解决。

https://community.hortonworks.com/articles/148917/orc-improvements-for-apache-spark-22.html
https://issues.apache.org/jira/browse/SPARK-14962
https://community.hortonworks.com/questions/222760/spark-sql-limit-clause-performance-issues.html