我正在运行跨产品操作并将结果存储在表中。 table1和table2中的行数分别为~300K和~15K。查询就像
create table table3
as
select a.var1*b.var1+......+a.var_n.b.var_n as score
from
table1 a , table2b
我发现这个过程在2000到3000个映射器上运行得最快,而分配的映射器数量要高得多(5000)。
我的问题是:
增加mapper的数量真的会加快这个过程吗?
有没有办法找出流程的最佳映射器数量?