我有分号文件,包含以下格式的分层数据:
ParentRecord;field1;field3;field4;...;fieldN;
ChildRecordType1;field1;field3;field4;...;fieldN;
...
ChildRecordType3;field1;field3;field4;field5;field6;...;fieldN;
ChildRecordType3;field1;field3;field4;field5;field6;...;fieldN;
...
ChildRecordTypeN;field1;field3;field4;...;fieldN;
因此,每个文件可能有多个父记录,并且每个记录都可以包含N个子记录。
所以我想要完成的是阅读父子记录块并将它们转换为Hadoop友好格式。
我可以通过实现自定义FileInputFormat和Custom RecordReader来实现这一目标吗? 我试图找到示例,但所有这些都导致LineRecord读取器,而不是我想要完成