应用错误收集

Spark禁用谓词下推

时间：2020-06-05 05:38:37

标签： apache-spark pyspark

我正在使用Spark 2.2。我在分区列上有一个联接查询，在其他列上也有一些过滤条件。因此，当我检查执行计划时，如下所示。

它检查非空分区列。
即使在与第二张表联接之前，它也将谓词应用于整个表。这导致Spark在所有分区上读取/应用过滤器，然后加入以获取数据。我的join子句实际上只命中一个分区。

为什么我的查询需要扫描所有分区？进行联接时，是否有任何方法可以控制Spark中的谓词下推？

0 个答案:

没有答案