标签: scala apache-spark hadoop apache-spark-sql
我正在尝试读取具有2年数据的HIVE表,并且每天对其进行分区。即使在应用了6个月的数据过滤器之后,通过SPARK-SQL读取该表也要花费超过10分钟的时间。
任何想法如何改进,我都尝试过Hive QL中的DISTRIBUTE BY子句
答案 0 :(得分:0)
您可以通过设置property来启用分区修剪:
<div {{action "dragEnd" on="dragEnd"}}></div>
这将过滤分区