我试图在Hadoop中实现前缀和。我理解算法:
但我该如何实施呢?我怎么知道使用了多少个节点?我怎么知道哪个节点'我'? Hadoop文档令人难以置信地缺乏信息和混乱。我希望通过使用键范围(nodeID,numberOfNodes)多次发送和来广播数据,以便每个reducer可以对其进行求和。我感到迷茫,我在Hadoop上没有很多经验。任何人都可以帮助我吗?
答案 0 :(得分:0)
您可以在Hadoop中的三个任务中执行此操作:
第一项任务(只有一个减速机)
假设结果存储在hdfs的 partition 目录中。
第二项任务(使用 r reducer)
假设结果存储在hdfs的 sizes 目录中。
第二项任务(使用 r reducer)