我想写一个map-reduce或multiple来比较行。
我无法在没有在减速器中做任何事情的情况下编写它。
对于数百万行,这可能需要我很多时间来比较整个数据集。我怎么能实现这个目标呢?
我不在乎PIG。这是一个我将扩展的简单案例(我在PIG中无法做到的事)
答案 0 :(得分:0)
有些问题要问 你想比较最后一张唱片吗? 2.如果是的话,对于上面那可能是,我担心你没有选择而不是依赖于reducer来获取整个数据 3.如果答案为否,并且您想要跳过集合的其余部分,那么当进行特定比较并满足时,您可以在地图中验证它自己并且不向mapper输出写入任何内容。但是,仍然会有其他地图在运行,因此在这种情况下,一旦比较成功,您应该退出作业