Hive启动时间歧管大于执行时间

时间:2015-09-18 09:56:58

标签: hadoop amazon-s3 hive bigdata hadoop2

配置单元启动mapreduce作业所花费的时间比hadoop实际执行它所花费的时间要多得多。 这是要触发查询的表详细信息。

CREATE EXTERNAL TABLE A
(
    user_id string,
    stage strig,
    url string
)

PARTITIONED BY (dt string , id string)

表的所有数据都存储在S3中,每天将有大约2000个唯一ID,即每天添加2000个分区。我们可以假设每个分区平均有100MB gzip压缩数据。
现在,当我运行像“SELECT DISTINCT user_id FROM A WHERE dt>='20150101' and dt <= '20150401'”这样的查询时,即在3个月的时间内,大约60000个分区需要蜂巢大约2小时才能启动地图减少作业,并且启动的作业将在20分钟内完成。
所以想知道是否有人可以帮我理解这2小时内蜂巢的作用? 非常感谢这里的一些帮助。在此先感谢!!!!

0 个答案:

没有答案