标签: hadoop apache-pig
我有一个非结构化的键值对文件,其中包含19-22列。该文件有8000条记录.1条4000条记录有19列,其他记录有22列。看到第二条4000条记录,我知道了前4000条中缺失的3列的位置和名称.Col1应位于第3位col2和col4到记录的最后位置。你能帮我解决一下如何开始和解决它。所以输出文件包含一个结构化的总共22列,它应该只有列的值而不是它的键。
答案 0 :(得分:0)
你可以写一个自定义的猪装载机。您解析数据,然后您可以定义自己的架构来管理缺少的列