在现有EC2集群上设置Spark

时间:2015-04-02 10:08:03

标签: amazon-web-services amazon-ec2 amazon-s3 apache-spark

我必须在Amazon S3中访问存储桶中的一些大文件并对其进行处理。为此,我计划使用Apache Spark。我有2个EC2实例用于此学习项目。这些不是用于小crons,所以我可以使用它们来安装和运行Spark吗?如果是这样,如何在现有的EC2盒子上安装Spark,这样我就可以制作一个主服务器和一个服务器?

3 个答案:

答案 0 :(得分:1)

如果有帮助,我在一个分支上以独立模式安装Spark,另一个也安装了Spark,将一个设置为Master,另一个设置为slave。我所遵循的详细说明如下 https://spark.apache.org/docs/1.2.0/spark-standalone.html#installing-spark-standalone-to-a-cluster

答案 1 :(得分:0)

请参阅EC2上的Apache Spark Cluster教程Use the AWS Product Advertising API in Paw HTTP Client

答案 2 :(得分:0)

是的,您可以轻松创建一个带有2个aws实例的主从服务器,只需在两个实例上的spark-env.sh中设置SPARK_MASTER_IP = instance_privateIP_1,并将实例2私有IP放在conf文件夹的slave文件中,这些配置在机器和其他配置也设置为内存核心等,然后你可以从master启动它,并确保火花安装在两台机器的同一位置。