应用错误收集

默认情况下，Hadoop会在文件的块边界上拆分Mapper处理的文件。也就是说，这就是FileInputFormat实现对getSplits（）的作用。然后，Hadoop确保Mapper处理的块在Mapper运行的Datanode上复制。

现在我想知道，如果我需要在这个InputSplit之外读取（在RecordReader中，但这是无关紧要的），这会让我付出代价而不是在InputSplit内部读取 - 假设它之外的数据不是出现在阅读Datanode？

修改

换句话说： 我是一个RecordReader ，并且已经分配了一个 InputSplit，它跨越一个文件块。我有这个文件块的本地副本（相反，我正在运行的datanode），但不是文件的其余部分。现在我需要在此InputSplit 之外阅读，因为我需要阅读最开头的文件标题。然后我需要跳过文件中的记录（通过只读取记录标题，告诉我每条记录的时间长度，而不是跳过这些字节数）。我需要这样做，直到遇到InputSplit中的第一条记录。然后我就可以开始阅读InputSplit中的实际记录了。这是确保我将从有效记录边界开始的唯一方法。

问题：当我在InputSplit之外读取时，何时复制了非本地文件块中的数据？这是一次完成一个字节（即每次调用InputStream.read（）一次），或者一旦我调用InputStream.read（）直到遇到整个文件块（当前InputStream位置）复制到我的本地datanode下一个非本地文件块等？我需要知道这一点，以便我可以估算跳过文件会产生多少开销。

谢谢：）

Hadoop：从其他Datanode读取非本地数据的成本

2 个答案: