我正在编写一个自定义的RecordReader,以处理包含数十万条记录的每日数据集。大多数记录将遍历以LF字符结尾的一行。记录中的特定字段存储电子邮件,用户生成的文本,甚至xml。我经常在这个特定领域中以CR字符结尾,这些字符打破了多行记录。我的第一个想法是编写一个可处理这种情况的自定义记录读取器,仅按LF字符拆分然后剥离CR字符,从而使我每行只有一条记录。
自定义记录读取器是这里的最佳选择吗?是否有我可能会错过的API专门用于执行此操作?如果我需要自定义阅读器,那么有关如何最好地剥离CR并将多行返回到由LF终止的单行的一些技巧是什么?