配置单元启动mapreduce作业所花费的时间比hadoop实际执行它所花费的时间要多得多。 这是要触发查询的表详细信息。
CREATE EXTERNAL TABLE A
(
user_id string,
stage strig,
url string
)
PARTITIONED BY (dt string , id string)
表的所有数据都存储在S3中,每天将有大约2000个唯一ID,即每天添加2000个分区。我们可以假设每个分区平均有100MB gzip压缩数据。
现在,当我运行像“SELECT DISTINCT user_id FROM A WHERE dt>='20150101' and dt <= '20150401'
”这样的查询时,即在3个月的时间内,大约60000个分区需要蜂巢大约2小时才能启动地图减少作业,并且启动的作业将在20分钟内完成。
所以想知道是否有人可以帮我理解这2小时内蜂巢的作用?
非常感谢这里的一些帮助。在此先感谢!!!!