在hdfs中对大文件进行块分割是否会导致在运行mapreduce wordcount时单词被截断

时间:2018-09-08 02:36:03

标签: hadoop mapreduce

例如:

raw file: aaaa bbbb aaaa bbbbnf

如果我们运行单词计数来计算原始文件,则会得到结果:

aaaa   2
bbbb   1
bbbbnf 1

但是如果文件分为以下几个块:

block1: 
aaaa bbbb aa

block2:
aa bbbbnf

然后单词计数导致错误

0 个答案:

没有答案