我的Mapreduce作业的地图部分取决于Numpy。所以,这意味着我需要安装numpy作为引导操作的一部分。
我正在考虑做的是构建存储在S3上的自定义Numpy包,该包在boostrap操作期间被提取和安装。
有更好的方法吗?
答案 0 :(得分:1)
Numpy现在安装在Amazon Elastic MapReduce实例上,但是如果你想使用其他模块,你可以将它们压缩,用DistributedCache分发给你的工作人员(使用“-cacheFile”),然后用Python导入它们内置“zipimport”模块。
请参阅:http://www.cloudera.com/blog/2008/11/sending-files-to-remote-task-nodes-with-hadoop-mapreduce/