我正在尝试处理跨越多行的Hadoop中的大型记录。每条记录都包含以下内容:
>record_id|record_name // Should be the key
JAKSJDUVUAKKSKJJDJBUUBLAKSJDJUBKAKSJSDJB // Should be the value
KSJGFJJASPAKJWNMFKASKLSKJHUUBNFNNAKSLKJD
JDKSKSKALSLDKSDKPBPBPKASJDKSALLKSADJSAKD
我想将包含这些记录的文件作为字节读取,因为将其作为字符串读取只是内存密集型,因为单个记录可能超过100MB。 除了在文件中定义新记录的>
字符外,我无法拆分这些记录。
我一直在寻找可以为我执行这些步骤的默认RecordReader
和InputFormat
,但我无法找到它。我正在努力写自己的。但我没有关于这个主题的示例/教程。
我该如何处理?