我正在编写Pig脚本。需要在非结构化文件中添加三列。

时间:2015-12-21 23:36:44

标签: hadoop apache-pig

我有一个非结构化的键值对文件,其中包含19-22列。该文件有8000条记录.1条4000条记录有19列,其他记录有22列。看到第二条4000条记录,我知道了前4000条中缺失的3列的位置和名称.Col1应位于第3位col2和col4到记录的最后位置。你能帮我解决一下如何开始和解决它。所以输出文件包含一个结构化的总共22列,它应该只有列的值而不是它的键。

1 个答案:

答案 0 :(得分:0)

你可以写一个自定义的猪装载机。您解析数据,然后您可以定义自己的架构来管理缺少的列