困扰我的2个基本问题:
背景: 我有一台32台机器的蜂巢集群,并且:
"CLUSTERED BY(MY_KEY) INTO 32 BUCKETS"
hive.enforce.bucketing = true;
谢谢!
答案 0 :(得分:5)
答案 1 :(得分:1)
没有连接,使用了通常的Hadoop Map Reduce数据局部机制(Spike的答案中描述了它)。
特别是对于蜂巢我会提到地图连接。可以告诉配置单元仅用于映射的表的最大大小是多少。当其中一个表足够小时,Hive将使用分布式缓存机制将此表复制到所有节点,并确保所有连接过程在本地发生在数据上。
这个过程有很好的解释:
http://www.facebook.com/note.php?note_id=470667928919