了解hadoop中的记录阅读器

时间:2016-05-19 10:58:50

标签: hadoop dictionary reduce

我是hadoop的新手,在尝试学习自定义记录阅读器时我有一个疑问,在这里链接:here,作者使用了start -1字符我明白如果前面的最后一行可能有可能拆分在下一个区块中具有很少的字符

我的问题是,如果我们的块大小为128 Mb并且整个块被分割,那么我们必须注意不重读或跳过文件内容,但我们如何通过从开始减少一个字符来实现这一点。 / p>

如果我们有以边界结尾的文件,请在初始化函数期间确认start变量的值始终为零(对于每个拆分)。 跨越块的行

时,start -1的值是多少?

由于

0 个答案:

没有答案