单词对计数对应在段落边界

时间:2015-01-10 15:57:35

标签: hadoop

单词对计数中需要帮助,对应在段落边界。例如,上一个单词不应该是文本文件中段落的最后一个单词,下一个单词不应该是单词计数对中新段落的第一个单词。你能不能让我知道如何使用Java

在Hadoop(框架工作)中实现

1 个答案:

答案 0 :(得分:0)

请更好地解释您的需求和方案。如果我理解正确你会希望你的地图减少作业逐段处理文本,在mapper中实现你想要的逻辑(你用prev word / next word指定的),并在reducer中实现通常的求和reduce()函数