Spark禁用谓词下推

时间:2020-06-05 05:38:37

标签: apache-spark pyspark

我正在使用Spark 2.2。我在分区列上有一个联接查询,在其他列上也有一些过滤条件。因此,当我检查执行计划时,如下所示。

  1. 它检查非空分区列。

  2. 即使在与第二张表联接之前,它也将谓词应用于整个表。这导致Spark在所有分区上读取/应用过滤器,然后加入以获取数据。我的join子句实际上只命中一个分区。

为什么我的查询需要扫描所有分区?进行联接时,是否有任何方法可以控制Spark中的谓词下推?

0 个答案:

没有答案