Spark未安装在EMR集群上

时间:2015-11-09 22:21:03

标签: amazon-web-services amazon-ec2 apache-spark amazon-emr

我已经在EMR群集上使用Spark几周了,没有任何问题 - 设置是使用AMI 3.8.0和Spark 1.3.1,我通过了' -x'作为Spark的一个参数(没有它,似乎没有安装)。

我想升级到更新版本的Spark,今天使用包含Spark 1.5.0的emr-4.1.0 AMI来启动集群。当群集启动时,它声称已经成功安装了Spark(至少在AWS上的群集管理页面上),但是当我进入' hadoop @ [IP地址]'我没有看到“hadoop”中的任何内容。目录,在以前的版本中安装了Spark(我也尝试过使用其他应用程序,但结果相同,并试图以ec2-user的形式进行ssh,但也没有安装Spark)。当我用emr-4.1.0 AMI启动集群时,我没有选择通过' -x'对Spark的争论,我想知道是否有一些我不知道的东西。

有谁知道我在这里做错了什么?

非常感谢。

1 个答案:

答案 0 :(得分:1)

这实际上已经解决了,而且非常简单。

在之前的AMI中,Spark和其他应用程序的所有路径都是hadoop文件夹中提供的软链接。在较新的AMI中,这些已被删除,但应用程序仍然已安装,可以通过命令行中的“spark-shell”(例如)访问。