我按照here指令成功设置了一个群集。只是想知道我可以通过API使用这种类型的集群调用Spark吗?我在哪里可以找到Spark端点的详细信息?如果前面提到的教程是一个死胡同,那么有人能指出我正确的方向吗?
我的最终POC目标是在某个S3存储桶中的平面文件(例如csv)中添加2列,并通过spark将结果值与第三列进行比较(这不是作业( - :) - 理想情况下使用Mobius作为我是[前] .net dev)。
答案 0 :(得分:1)
This reference应该为您提供所需的信息。这是一个片段:
" 进入您下载的Apache Spark版本的ec2目录。
运行./spark-ec2 -k <keypair> -i <key-file> -s <num-slaves> launch <cluster-name>
,其中<keypair>
是您的EC2密钥对的名称(您在创建密钥对时提供的名称),<key-file>
是密钥对的私钥文件{{1}是要启动的从属节点数(首先尝试1),<num-slaves>
是要为群集提供的名称。
例如:
<cluster-name>
在所有内容启动后,检查群集调度程序是否已启动,并通过转到其Web UI来查看所有从属服务器,该UI将在脚本末尾打印(通常为http://master-hostname:8080)。&#34;