如何强制猪增加地图数量

时间:2015-03-22 11:34:50

标签: java hadoop apache-pig

我有一个高度可并行化的任务。在hadoop中,我可以编写一个任务来使用所有服务器容量。然而猪只跑了1张地图。

任务非常简单,我加载了一组int(总共120k),然后在udf中分别处理它们。像

这样的东西
LOAD data as (id:int);
result = foreach data generate udf.myFunction(id);
STORE result ...;

1 个答案:

答案 0 :(得分:0)

Pig将根据输入大小估算分割量( - >映射器数量)。

您可以减小最大分割大小以获得更多地图制作者。

SET mapred.max.split.size #bytes