应用错误收集

在现有EC2集群上设置Spark

时间：2015-04-02 10:08:03

标签： amazon-web-services amazon-ec2 amazon-s3 apache-spark

我必须在Amazon S3中访问存储桶中的一些大文件并对其进行处理。为此，我计划使用Apache Spark。我有2个EC2实例用于此学习项目。这些不是用于小crons，所以我可以使用它们来安装和运行Spark吗？如果是这样，如何在现有的EC2盒子上安装Spark，这样我就可以制作一个主服务器和一个服务器？

3 个答案:

答案 0 :(得分：1)

如果有帮助，我在一个分支上以独立模式安装Spark，另一个也安装了Spark，将一个设置为Master，另一个设置为slave。我所遵循的详细说明如下 https://spark.apache.org/docs/1.2.0/spark-standalone.html#installing-spark-standalone-to-a-cluster

答案 1 :(得分：0)

请参阅EC2上的Apache Spark Cluster教程

答案 2 :(得分：0)

是的，您可以轻松创建一个带有2个aws实例的主从服务器，只需在两个实例上的spark-env.sh中设置SPARK_MASTER_IP = instance_privateIP_1，并将实例2私有IP放在conf文件夹的slave文件中，这些配置在机器和其他配置也设置为内存核心等，然后你可以从master启动它，并确保火花安装在两台机器的同一位置。