在SPARK SQL中读取分区的HIVE表

时间:2019-10-09 06:42:26

标签: scala apache-spark hadoop apache-spark-sql

我正在尝试读取具有2年数据的HIVE表,并且每天对其进行分区。即使在应用了6个月的数据过滤器之后,通过SPARK-SQL读取该表也要花费超过10分钟的时间。

任何想法如何改进,我都尝试过Hive QL中的DISTRIBUTE BY子句

1 个答案:

答案 0 :(得分:0)

您可以通过设置property来启用分区修剪:

<div {{action "dragEnd" on="dragEnd"}}></div>

这将过滤分区