使用带有aws集群的spark

时间:2017-04-02 17:25:16

标签: amazon-web-services apache-spark mobius

我按照here指令成功设置了一个群集。只是想知道我可以通过API使用这种类型的集群调用Spark吗?我在哪里可以找到Spark端点的详细信息?如果前面提到的教程是一个死胡同,那么有人能指出我正确的方向吗?

我的最终POC目标是在某个S3存储桶中的平面文件(例如csv)中添加2列,并通过spark将结果值与第三列进行比较(这不是作业( - :) - 理想情况下使用Mobius作为我是[前] .net dev)。

1 个答案:

答案 0 :(得分:1)

This reference应该为您提供所需的信息。这是一个片段:

&#34; 进入您下载的Apache Spark版本的ec2目录。 运行./spark-ec2 -k <keypair> -i <key-file> -s <num-slaves> launch <cluster-name>,其中<keypair>是您的EC2密钥对的名称(您在创建密钥对时提供的名称),<key-file>是密钥对的私钥文件{{1}是要启动的从属节点数(首先尝试1),<num-slaves>是要为群集提供的名称。

例如

<cluster-name>

在所有内容启动后,检查群集调度程序是否已启动,并通过转到其Web UI来查看所有从属服务器,该UI将在脚本末尾打印(通常为http://master-hostname:8080)。&#34;