蜂巢所需的最佳映射器数量

时间:2015-06-24 06:28:09

标签: hadoop hive

我正在运行跨产品操作并将结果存储在表中。 table1和table2中的行数分别为~300K和~15K。查询就像

create table table3 
as 
select a.var1*b.var1+......+a.var_n.b.var_n as score 
from 
table1 a , table2b 

我发现这个过程在2000到3000个映射器上运行得最快,而分配的映射器数量要高得多(5000)。

我的问题是:

  1. 增加mapper的数量真的会加快这个过程吗?

  2. 有没有办法找出流程的最佳映射器数量?

0 个答案:

没有答案