在hadoop中以章节方式计算文本文件的单词

时间:2017-03-26 16:00:32

标签: hadoop

我已成功在hadoop中执行了单词计数。现在我想用文本文件或pdf重复相同的过程。我想算一章明智的话。 我该怎么办?

1 个答案:

答案 0 :(得分:0)

在MapReduce中,关键是你如何构建你的密钥。

在wordcount中,地图阶段的每个单词都计为1,在缩减器中,你得到整个文件中出现的单词的集合。

Wordcount示例:

Map Phase:
<Key , val>
in, 1
at, 1
in, 1

Reducer Phase:
in, 2
at, 1

如果要分成另一个级别(章节),您只需构建复合键。

Wordcount w章节示例:

Map Phase:
<Key , val>
chapter1-in, 1
chapter1-at, 1
chapter2-in, 1

Reducer Phase:
chapter1-in, 1
chapter1-at, 1
chapter2-in, 1

次要排序是实现相同但更复杂的更好和更清洁的方式。 hadoop map reduce secondary sorting