标签: hadoop apache-spark hdfs
我正在尝试了解MultiFileWordCount示例,以便在Hadoop中实现CombineFileInputSplit。
除了我发现非常混乱的2行之外,大部分都很容易
https://github.com/hanborq/hadoop/blob/master/src/examples/org/apache/hadoop/examples/MultiFileWordCount.java#L142
我不清楚为什么需要skipFirstLine以及为什么偏移减少了1.
这与post by IBM中使用的内容相同。这里的一些帮助将不胜感激。