应用错误收集

Spark可以利用分区的hive表来减少IO吗？

时间：2017-01-13 12:40:55

标签： apache-spark apache-spark-sql spark-dataframe

我有一个140亿的表，我正在扫描3个月的数据，我可以看到任务的数量是9439。同一个表我扫描了1个月，任务数量完全相同9439。我的表被分区了几个月，所以我认为spark并没有利用分区表。

这是正确的行为！如果我遗漏任何东西，请帮助我。

谢谢！

0 个答案:

没有答案