hadoop - Hive启动时间歧管大于执行时间

配置单元启动mapreduce作业所花费的时间比hadoop实际执行它所花费的时间要多得多。这是要触发查询的表详细信息。

CREATE EXTERNAL TABLE A
(
    user_id string,
    stage strig,
    url string
)

PARTITIONED BY (dt string , id string)

表的所有数据都存储在S3中，每天将有大约2000个唯一ID，即每天添加2000个分区。我们可以假设每个分区平均有100MB gzip压缩数据。
现在，当我运行像“SELECT DISTINCT user_id FROM A WHERE dt>='20150101' and dt <= '20150401'”这样的查询时，即在3个月的时间内，大约60000个分区需要蜂巢大约2小时才能启动地图减少作业，并且启动的作业将在20分钟内完成。
所以想知道是否有人可以帮我理解这2小时内蜂巢的作用？非常感谢这里的一些帮助。在此先感谢!!!!

Hive启动时间歧管大于执行时间

0 个答案: