应用错误收集

Pig's documentation清楚地表明本地操作旨在运行单线程，为某些函数采用不同的代码路径，否则这些函数将使用分布式排序。因此，优化Pig的本地模式似乎是对所提出问题的错误解决方案。

您是否考虑过运行本地“伪分布式”群集而不是投资完整群集设置？您可以关注Hadoop's instructions for pseudo-distributed operation,，然后点击猪localhost。这将产生预期的结果，代价是两步启动和拆卸。

您需要增加默认映射器和缩减器的数量，以使用计算机上可用的所有核心。幸运的是，这是相当充分的文件记录（诚然，在cluster setup documentation）;只需在mapred.tasktracker.map.tasks.maximum的本地副本中定义mapred.tasktracker.reduce.tasks.maximum和$HADOOP_HOME/conf/mapred-site.xml。

微调PIG以进行本地执行

1 个答案: