将文本文件作为字节读取,在字符上拆分

时间:2014-11-03 08:58:27

标签: hadoop mapreduce

我正在尝试处理跨越多行的Hadoop中的大型记录。每条记录都包含以下内容:

>record_id|record_name                    // Should be the key
JAKSJDUVUAKKSKJJDJBUUBLAKSJDJUBKAKSJSDJB  // Should be the value
KSJGFJJASPAKJWNMFKASKLSKJHUUBNFNNAKSLKJD
JDKSKSKALSLDKSDKPBPBPKASJDKSALLKSADJSAKD

我想将包含这些记录的文件作为字节读取,因为将其作为字符串读取只是内存密集型,因为单个记录可能超过100MB。 除了在文件中定义新记录的>字符外,我无法拆分这些记录

我一直在寻找可以为我执行这些步骤的默认RecordReaderInputFormat,但我无法找到它。我正在努力写自己的。但我没有关于这个主题的示例/教程。

我该如何处理?

0 个答案:

没有答案