Question

我有一个高度可并行化的任务。在hadoop中，我可以编写一个任务来使用所有服务器容量。然而猪只跑了1张地图。

任务非常简单，我加载了一组int（总共120k），然后在udf中分别处理它们。像

这样的东西

LOAD data as (id:int);
result = foreach data generate udf.myFunction(id);
STORE result ...;

Answer 1

Pig将根据输入大小估算分割量（ - >映射器数量）。

您可以减小最大分割大小以获得更多地图制作者。

SET mapred.max.split.size #bytes