Question

我已经看到Apache中的以下行为引发了几次。无法解释这种行为的构成？因此伸出手来激发广泛的社区。

考虑以下简单查询

select emp_name,emp_id, emp_addr from employee where emp_dob in (select cal_dt from calendar where mon = 'oct' and year=1990)

在这里，我们试图获取1990年出生月份为'Oct'的所有雇员。与下一个相比，此查询会导致数千个分区

select emp_name,emp_id, emp_addr from employee where emp_dob in ('1990-10-01','1990-10-02','1990-10-03'....'1990-10-31')

有人可以帮助我了解这种行为吗？

Answer 1

此问题已在Spark 3.0中的https://issues.apache.org/jira/browse/SPARK-11150中进行了处理。希望有帮助。