java - MapReduce-用于不均匀线条的RecordReader

我正在编写一个自定义的RecordReader，以处理包含数十万条记录的每日数据集。大多数记录将遍历以LF字符结尾的一行。记录中的特定字段存储电子邮件，用户生成的文本，甚至xml。我经常在这个特定领域中以CR字符结尾，这些字符打破了多行记录。我的第一个想法是编写一个可处理这种情况的自定义记录读取器，仅按LF字符拆分然后剥离CR字符，从而使我每行只有一条记录。

自定义记录读取器是这里的最佳选择吗？是否有我可能会错过的API专门用于执行此操作？如果我需要自定义阅读器，那么有关如何最好地剥离CR并将多行返回到由LF终止的单行的一些技巧是什么？

MapReduce-用于不均匀线条的RecordReader

0 个答案: