Spark可以利用分区的hive表来减少IO吗?

时间:2017-01-13 12:40:55

标签: apache-spark apache-spark-sql spark-dataframe

我有一个140亿的表,我正在扫描3个月的数据,我可以看到任务的数量是9439。同一个表我扫描了1个月,任务数量完全相同9439。 我的表被分区了几个月,所以我认为spark并没有利用分区表。

这是正确的行为!如果我遗漏任何东西,请帮助我。

enter image description here

谢谢!

0 个答案:

没有答案