我的一些猪脚本需要很长时间才能执行,因为他们运行map reduce工作的数据非常庞大。所以,我只是想办法加速脚本。有人可以提出任何想法并提出他们的想法。 当我基于两个或三个字段的组合对数据进行分组时,涉及很多GROUP BY字段。
我能想到的一个想法是在进行GROUP BY时有一个额外的字段
Data = GROUP BY (int) (RANDOM()*100) as reducers, field1, field2 etc
它会有所帮助,因为它会通过在GROUP BY中引入一个额外字段来涉及更多数量的减速器。我知道输出部分文件的大小会变小,但它会整体加快猪脚本的运行时间。