在地图中拆分减少了工作

时间:2013-12-04 12:20:42

标签: hadoop mapreduce input-split recordreader

我有一个输入文件,我需要在其上自定义RecordReader。但是,问题在于,数据可能会分布在不同的输入分割中,而不同的映射器可能会得到第一个映射器应该使用的数据。

例如
A B C D
 $ E F

开头的'$'表示,它是前一行的延续。

考虑到,第二次拆分从$开始。现在,我的第一个映射器将不知道第一行的继续存在。 请注意,我的数据中根本没有任何第二行。所以,除非我阅读第二行,否则我无法判断是否存在继续保存数据的内容。

请帮我找到解决此问题的方法。

0 个答案:

没有答案