标签: hadoop dictionary reduce
我是hadoop的新手,在尝试学习自定义记录阅读器时我有一个疑问,在这里链接:here,作者使用了start -1字符我明白如果前面的最后一行可能有可能拆分在下一个区块中具有很少的字符
我的问题是,如果我们的块大小为128 Mb并且整个块被分割,那么我们必须注意不重读或跳过文件内容,但我们如何通过从开始减少一个字符来实现这一点。 / p>
如果我们有以边界结尾的文件,请在初始化函数期间确认start变量的值始终为零(对于每个拆分)。 跨越块的行
由于