了解Hadoop中的MultiFileWordCount示例

时间:2016-11-08 08:15:00

标签: hadoop apache-spark hdfs

我正在尝试了解MultiFileWordCount示例,以便在Hadoop中实现CombineFileInputSplit。

除了我发现非常混乱的2行之外,大部分都很容易

https://github.com/hanborq/hadoop/blob/master/src/examples/org/apache/hadoop/examples/MultiFileWordCount.java#L142

我不清楚为什么需要skipFirstLine以及为什么偏移减少了1.

这与post by IBM中使用的内容相同。这里的一些帮助将不胜感激。

0 个答案:

没有答案