在谷歌云集群上安装spark 1.4

时间:2015-07-04 14:47:42

标签: apache-spark google-compute-engine

我设置了一个带有Click to Deploy的谷歌计算群集 我想使用spark 1.4但我得到火花1.1.0 任何人都知道是否可以设置一个带有spark 1.4的集群?

2 个答案:

答案 0 :(得分:3)

我也有这个问题。这些是我采取的步骤:

  1. 从github https://github.com/GoogleCloudPlatform/bdutil
  2. 下载GCE的bdutil副本
  3. 从spark网站下载您想要的spark版本,在本例中为spark-1.4.1,并将其存储到您控制的google计算存储桶中。确保它是一个支持你将使用bdutil部署的hadoop的火花
  4. 编辑spark env文件https://github.com/GoogleCloudPlatform/bdutil/blob/master/extensions/spark/spark_env.sh
  5. 将SPARK_HADOOP2_TARBALL_URI ='gs://spark-dist/spark-1.3.1-bin-hadoop2.6.tgz'更改为SPARK_HADOOP2_TARBALL_URI ='gs:// [你的SPARK路径]'我假设你想要hadoop 2,如果你想要hadoop 1,请确保你改变了正确的变量。
  6. 一旦完成,从修改后的bdutil,构建你的hadoop + spark集群,你应该有一个现代版本的spark
  7. 执行bdutil时,你必须确保使用-e命令执行spark_env.sh,如果你正在安装hadoop2,你还需要添加hadoop_2 env。

答案 1 :(得分:0)

一个选项是尝试http://spark-packages.org/package/sigmoidanalytics/spark_gce,这会部署Spark 1.2.0,但您可以编辑该文件以部署1.4.0。