Pig 0.12引入了流式python UDF,但它们是实验性的,所以它们需要Hadoop 1.
http://pig.apache.org/docs/r0.12.1/udf.html#python-udfs
然而,唯一可以使用猪0.12的亚马逊提供的AMI是AMI 3.1.0,它使用hadoop 2.4,而不是Hadoop 1:
http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-plan-hadoop-version.html
因此,唯一支持正确版猪的AMI并不支持正确版本的hadoop。有没有办法让流式UDF在EMR上工作?
答案 0 :(得分:2)
您可以使用引导操作在EMR上安装自己的Pig版本。您需要在AMI版本(2.4.5?)上创建一个没有Pig的集群 - 然后安装您喜欢的Pig版本(0.12)