Spark使用自定义Windows AMI在EC2上部署时间较长

时间:2015-01-09 10:51:07

标签: ssh amazon-ec2 apache-spark

我正在尝试在 Amazon EC2 基础架构上运行带有一些 Windows 实例的Spark群集,但我遇到了部署时间极长的一些问题。

我的项目需要在 Windows 环境中运行,因此我使用另一个AMI,通过 Spark 提供的-a标志来指示它' spark-ec2脚本。当我运行脚本时,进程一直等待实例启动并运行,并显示以下消息:

Waiting for all instances in cluster to enter 'ssh-ready' state.............

当我使用默认AMI时,群集会在等待几分钟后正常启动。

我搜索过与其他用户类似的问题,到目前为止,我只能找到this statement关于使用自定义AMI-s 长时间部署的时间(请参阅Josh Rosen&#39 ;答案)。

我使用的是 Spark 版本1.2.0。启动集群的调用类似于以下内容:

./spark-ec2 -k MyKeyPair 
            -i MyKeyPair.pem 
            -s 10 
            -a ami-905fe9e7
            --instance-type=t1.micro 
            --region=eu-west-1
            --spark-version=1.2.0
            launch MyCluster

上面指出的 AMI 是指:

Microsoft Windows Server 2012 R2 Base - ami-905fe9e7
Desc: Microsoft Windows 2012 R2 Standard edition with 64-bit architecture. [English]

对此问题的任何帮助或称赞将不胜感激。

1 个答案:

答案 0 :(得分:2)

我想我已经找到了问题所在。似乎 Spark 不支持使用其默认脚本在 Windows 环境中创建集群。我认为仍然可以创建一个带有一些手动调整的集群,但它完全取决于我有限的知识。 Here是解释它的官方帖子。

相反,作为一个时间解决方案,我正在考虑使用 Microsoft Azure 集群,该集群刚刚发布了一个实验工具,可以使用 Apache Hadoop(Spark)的变体) HDinsight 群集上。 Here是更好地解释它的文章。