在我的猪脚本中,我希望文件名与每个记录进行一些进一步处理,所以我使用-tagFile选项。现在使用-tagFile选项后,列名称未对齐,因此我在下面的命令中使用了在引用此博客后仅获取所需的列:http://www.webopius.com/content/764/resolved-apache-pig-with-tagsource-tagfile-option-generates-incorrect-columns
pig -x mapreduce -t ColumnMapKeyPrune
现在我想在 AWS EMR 上运行脚本,但我不确定如何在EMR Pig上启用此-t ColumnMapKeyPrune选项。
我正在使用AWS CLI创建aws群集并提交作业。 有关如何在EMR Pig上启用-t ColumnMapKeyPrune的任何指针。
答案 0 :(得分:1)
我得到了解决方案。我需要在猪脚本中添加以下行:
set pig.optimizer.rules.disabled 'ColumnMapKeyPrune';