Question

我按照here指令成功设置了一个群集。只是想知道我可以通过API使用这种类型的集群调用Spark吗？我在哪里可以找到Spark端点的详细信息？如果前面提到的教程是一个死胡同，那么有人能指出我正确的方向吗？

我的最终POC目标是在某个S3存储桶中的平面文件（例如csv）中添加2列，并通过spark将结果值与第三列进行比较（这不是作业（ - :) - 理想情况下使用Mobius作为我是[前] .net dev）。

Answer 1

This reference应该为您提供所需的信息。这是一个片段：

＆＃34; 进入您下载的Apache Spark版本的ec2目录。运行./spark-ec2 -k <keypair> -i <key-file> -s <num-slaves> launch <cluster-name>，其中<keypair>是您的EC2密钥对的名称（您在创建密钥对时提供的名称），<key-file>是密钥对的私钥文件{{1}是要启动的从属节点数（首先尝试1），<num-slaves>是要为群集提供的名称。

例如：

<cluster-name>

在所有内容启动后，检查群集调度程序是否已启动，并通过转到其Web UI来查看所有从属服务器，该UI将在脚本末尾打印（通常为http://master-hostname:8080）。＆＃34;

使用带有aws集群的spark

1 个答案: