Hadoop转换和加载分层文本文件

时间:2013-10-23 17:59:43

标签: hadoop etl

我有分号文件,包含以下格式的分层数据:

ParentRecord;field1;field3;field4;...;fieldN;
ChildRecordType1;field1;field3;field4;...;fieldN;
...
ChildRecordType3;field1;field3;field4;field5;field6;...;fieldN;
ChildRecordType3;field1;field3;field4;field5;field6;...;fieldN;
...
ChildRecordTypeN;field1;field3;field4;...;fieldN;

因此,每个文件可能有多个父记录,并且每个记录都可以包含N个子记录。

所以我想要完成的是阅读父子记录块并将它们转换为Hadoop友好格式。

我可以通过实现自定义FileInputFormat和Custom RecordReader来实现这一目标吗? 我试图找到示例,但所有这些都导致LineRecord读取器,而不是我想要完成

0 个答案:

没有答案