apache-spark - Spark的分区修剪和谓词下推有什么区别？

我正在研究Spark优化方法，并遇到了各种实现优化的方法。但是有两个名字引起了我的注意。

分区修剪
谓词下推

他们说：

分区修剪：

分区修剪是一项性能优化，它限制了数量查询时读取的文件和分区的数量。后对数据进行分区，查询与某些分区过滤器匹配标准通过允许Spark只读取一个子集来提高性能目录和文件。

谓词下推：

Spark将尝试将数据过滤移到尽可能靠近源的位置可以避免将不必要的数据加载到内存中。实木复合地板和 ORC文件在不同的块中维护有关每个列的各种统计信息 aof数据（例如最小值和最大值）。程序读取这些文件可以使用这些索引来确定某些块，甚至整个块文件，完全需要阅读。这使程序可以在处理过程中跳过大部分数据。

通过阅读以上概念，它们似乎在执行满足查询中给定谓词的应用读取语句（查询）的相同操作。分区修剪和谓词下推是不同的概念还是我看错了方向？

Spark的分区修剪和谓词下推有什么区别？

1 个答案: