Question

我正在尝试读取具有2年数据的HIVE表，并且每天对其进行分区。即使在应用了6个月的数据过滤器之后，通过SPARK-SQL读取该表也要花费超过10分钟的时间。

任何想法如何改进，我都尝试过Hive QL中的DISTRIBUTE BY子句

Answer 1

您可以通过设置property来启用分区修剪：

<div {{action "dragEnd" on="dragEnd"}}></div>

这将过滤分区