在运行Hive Map Join时,映射器是如何决定的?

时间:2017-06-23 09:57:40

标签: join hive mapreduce hiveql hadoop2

这是在 Apache Hive 的维基页面上说明的:

  

如果除了其中一个表之外的所有表都很小,则可以将该连接作为仅映射作业执行。查询

SELECT /*+ MAPJOIN(b) */ a.key, a.value

FROM a JOIN b ON a.key = b.key

  

不需要减速机。对于A的每个映射器,B完全读取。

如果其中一个表格很小但另一个表格大到足以从单个映射器资源中删除,那么映射器的数量是如何决定的? 那么连接会自动变成非地图连接吗?

1 个答案:

答案 0 :(得分:0)

另一张桌子不能太大 它正在通过映射器进行流式传输。