Spark内部查询导致大量分区

时间:2019-11-11 05:19:47

标签: apache-spark

我已经看到Apache中的以下行为引发了几次。无法解释这种行为的构成?因此伸出手来激发广泛的社区。

考虑以下简单查询

select emp_name,emp_id, emp_addr from employee where emp_dob in (select cal_dt from calendar where mon = 'oct' and year=1990)

在这里,我们试图获取1990年出生月份为'Oct'的所有雇员。与下一个相比,此查询会导致数千个分区

select emp_name,emp_id, emp_addr from employee where emp_dob in ('1990-10-01','1990-10-02','1990-10-03'....'1990-10-31')

有人可以帮助我了解这种行为吗?

1 个答案:

答案 0 :(得分:0)

此问题已在Spark 3.0中的https://issues.apache.org/jira/browse/SPARK-11150中进行了处理。希望有帮助。