我正在为猪写一个定制装载机。它应该读取可能跨越多行的分隔记录。一切都有效,除了有时在记录中间发生分裂并混淆一切。我知道RecordReader和InputFormat与文件被拆分的地方有关,但无法弄清楚如何让它在我的情况下工作。 对我来说,看起来CSVExcelStorage应该有同样的问题,但我找不到任何代码来处理这个问题。
答案 0 :(得分:0)
CSVExcelStorage假设没有任何嵌入的新行字符,因此没有代码可以处理它们。
你认为RecordReader是罪魁祸首是正确的。您需要编写一个新的记录阅读器类,它能够理解您的数据,因此可以了解哪些新行字符是分割位置的候选字符,哪些新行字符只是数据的一部分。一旦编写了新的记录类,就需要一个新的InputFormatType来使用该记录阅读器类。