Spark在EC2上运行与EMR

时间:2016-03-21 21:04:38

标签: python amazon-web-services amazon-ec2 apache-spark amazon-emr

我们是正在研究与数据科学相关的毕业设计的学生,我们正在开发一个使用Spark with python(Pyspark)和Android应用程序(用户界面)的推荐引擎,我们面临很多障碍其中之一就是如何保持Spark脚本在云上运行并实现快速处理和实时结果。 我们所知道的EMR比EC2更新,并且已经安装了Hadoop。 我们仍然很难决定使用哪个以及它们与Spark有什么区别。

2 个答案:

答案 0 :(得分:3)

您还可以查看flintrock这是一个很好的python cli,以便快速无缝地在ec2上运行Spark集群。

答案 1 :(得分:2)

EMR提供了一个简单易用的Hadoop / spark作为服务。您只需选择要安装的组件(spark,hadoop),它们的版本,您要使用的机器数以及其他几个选项,然后它会为您安装所有内容。既然你是学生,我认为你不具备Ansible,Puppet或Chef等自动化工具的经验,而且你可能永远不必维护自己的hadoop集群。如果是这种情况,我肯定会建议EMR。作为一个经验丰富的hadoop / spark用户,同时我可以告诉你它有自己的局限性。当我在6个月前使用它时,我想使用最新版本的EMR(4.0如果记得正确),因为它支持最新版本的Spark,我很少有头痛来定制它来安装Java 8而不是提供的Java 7.相信这是他们支持Java 8的早期阶段,他们应该已经解决了这个问题。但这是你错过的所有"所有包括"解决方案,灵活性,特别是如果您是专家用户。