我有很多图像100K +存储在S3中,我有一些使用pySpark处理其中一些的代码。我正在使用Anaconda Python,因此已经正确安装了大量的库,我使用库scipy
,PIL
进行图像处理。
我打算使用EMR,但这是我的选择:
对于Python应用程序,只需传递一个.py文件即可 而不是JAR,并添加Python .zip,.egg或.py 使用--py-files将文件写入搜索路径。 - [Spark文档]
他们还支持customized bootstrap在配置群集时安装软件。然而,事实证明,Anaconda的Linux安装并不像yum install -y'那么容易。安装包括:
有人能指出我正确的方向是什么是一个更好的方法来建立一个安装了Spark和Anaconda Python(或至少scipy和PIL)的集群。
答案 0 :(得分:1)
您可以使用EMR bootstrap actions来silent install of anaconda吗?
您可能还想考虑Lambda,因为它现在支持Python(2.7)。鉴于文件已经在S3中,您需要为它们编写Lambda事件脚本。