应用错误收集

我有分号文件，包含以下格式的分层数据：

ParentRecord;field1;field3;field4;...;fieldN;
ChildRecordType1;field1;field3;field4;...;fieldN;
...
ChildRecordType3;field1;field3;field4;field5;field6;...;fieldN;
ChildRecordType3;field1;field3;field4;field5;field6;...;fieldN;
...
ChildRecordTypeN;field1;field3;field4;...;fieldN;

因此，每个文件可能有多个父记录，并且每个记录都可以包含N个子记录。

所以我想要完成的是阅读父子记录块并将它们转换为Hadoop友好格式。

我可以通过实现自定义FileInputFormat和Custom RecordReader来实现这一目标吗？我试图找到示例，但所有这些都导致LineRecord读取器，而不是我想要完成

Hadoop转换和加载分层文本文件

0 个答案: