标签: hadoop mapreduce
例如:
raw file: aaaa bbbb aaaa bbbbnf
如果我们运行单词计数来计算原始文件,则会得到结果:
aaaa 2 bbbb 1 bbbbnf 1
但是如果文件分为以下几个块:
block1: aaaa bbbb aa block2: aa bbbbnf
然后单词计数导致错误