我有一个高度可并行化的任务。在hadoop中,我可以编写一个任务来使用所有服务器容量。然而猪只跑了1张地图。
任务非常简单,我加载了一组int(总共120k),然后在udf中分别处理它们。像
这样的东西LOAD data as (id:int);
result = foreach data generate udf.myFunction(id);
STORE result ...;
答案 0 :(得分:0)
Pig将根据输入大小估算分割量( - >映射器数量)。
您可以减小最大分割大小以获得更多地图制作者。
SET mapred.max.split.size #bytes