应用错误收集

我在hadoop邮件列表中问了这个问题。他们回答说：

同步标记已经写入序列文件，它们是其中的一部分格式。这没什么好担心的 - 而且很简单测试并充满信心。该机制与阅读文本相同带换行符的文件 - 读者将确保读取边界数据，以便在必要时完成记录。

然后我问：

因此，如果我们有一个地图作业，只分析日志的第二个块文件，它不应该从其他节点传输其他任何部分因为那部分是独立的，意味着完全分裂？我是对的吗？

他们回答说：

是。简而言之，您的记录永远不会破裂。我们不读在分裂边界处，我们可能会超出边界直到同步遇到标记是为了完成一个或一系列的记录记录。随后的映射器将一直跳到第一个同步标记，然后开始阅读 - 以避免重复。这是文本文件读取的确切方式也是如此 - 只有在这里，它才是换行。