hadoop - 在hdfs中对大文件进行块分割是否会导致在运行mapreduce wordcount时单词被截断 - Thinbug

在hdfs中对大文件进行块分割是否会导致在运行mapreduce wordcount时单词被截断

时间：2018-09-08 02:36:03

标签： hadoop mapreduce

例如：

raw file: aaaa bbbb aaaa bbbbnf

如果我们运行单词计数来计算原始文件，则会得到结果：

aaaa   2
bbbb   1
bbbbnf 1

但是如果文件分为以下几个块：

block1: 
aaaa bbbb aa

block2:
aa bbbbnf

然后单词计数导致错误

0 个答案:

没有答案