标签: hadoop mapreduce input-split recordreader
我有一个输入文件,我需要在其上自定义RecordReader。但是,问题在于,数据可能会分布在不同的输入分割中,而不同的映射器可能会得到第一个映射器应该使用的数据。
RecordReader
例如 A B C D $ E F
开头的'$'表示,它是前一行的延续。
考虑到,第二次拆分从$开始。现在,我的第一个映射器将不知道第一行的继续存在。 请注意,我的数据中根本没有任何第二行。所以,除非我阅读第二行,否则我无法判断是否存在继续保存数据的内容。
请帮我找到解决此问题的方法。