应用错误收集

我正在尝试处理跨越多行的Hadoop中的大型记录。每条记录都包含以下内容：

>record_id|record_name                    // Should be the key
JAKSJDUVUAKKSKJJDJBUUBLAKSJDJUBKAKSJSDJB  // Should be the value
KSJGFJJASPAKJWNMFKASKLSKJHUUBNFNNAKSLKJD
JDKSKSKALSLDKSDKPBPBPKASJDKSALLKSADJSAKD

我想将包含这些记录的文件作为字节读取，因为将其作为字符串读取只是内存密集型，因为单个记录可能超过100MB。 除了在文件中定义新记录的>字符外，我无法拆分这些记录。

我一直在寻找可以为我执行这些步骤的默认RecordReader和InputFormat，但我无法找到它。我正在努力写自己的。但我没有关于这个主题的示例/教程。

我该如何处理？

将文本文件作为字节读取，在字符上拆分

0 个答案: