如何在Amazon EMR上使用Python流式UDF

时间:2014-09-04 01:09:20

标签: python numpy apache-pig elastic-map-reduce ami

Pig 0.12引入了流式python UDF,但它们是实验性的,所以它们需要Hadoop 1.

http://pig.apache.org/docs/r0.12.1/udf.html#python-udfs

然而,唯一可以使用猪0.12的亚马逊提供的AMI是AMI 3.1.0,它使用hadoop 2.4,而不是Hadoop 1:

http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-plan-hadoop-version.html

因此,唯一支持正确版猪的AMI并不支持正确版本的hadoop。有没有办法让流式UDF在EMR上工作?

1 个答案:

答案 0 :(得分:2)

您可以使用引导操作在EMR上安装自己的Pig版本。您需要在AMI版本(2.4.5?)上创建一个没有Pig的集群 - 然后安装您喜欢的Pig版本(0.12)