我想使用我知道所有IP的Amazon EC2实例来运行我的spark任务。
我想让一台计算机作为主计算机,其他三台计算机可以运行工作节点。有人可以帮助我如何为此任务配置火花......应该是独立的吗?我知道如何使用
设置主节点setMaster( “火花:// masterIP:7070”);
但是如何定义工作节点并将它们分配给上面的主节点?
答案 0 :(得分:0)
如果您正在配置 spark cluster 手动,您可以通过执行以下命令启动独立主服务器:
./ sbin目录/ start-master.sh
一旦启动,主人将为自己打印出一个 spark:// HOST:PORT URL,您可以将其用于连接工作者,或者将其作为“主”参数传递给SparkContext 。您还可以在主Web的UI上找到此URL,默认情况下为http://localhost:8080。
添加工作人员:
现在您可以启动一个或多个工作人员并通过以下方式将他们连接到主人:
./ sbin / start-slave.sh
启动工作人员后,请查看主人的Web UI(默认情况下为http://localhost:8080)。您应该看到其中列出的新节点,以及CPU和内存的数量(减去操作系统剩余的1 GB)。
有关详细信息,请查看spark网站starting-a-cluster-manually
修改强>
从MASTER运行工人
要使用启动脚本启动Spark独立群集,您应该在Spark目录中创建一个名为 conf / slaves 的文件,该文件必须包含所有计算机的主机名你打算在哪里开始Spark工作,每行一个。注意,主机通过ssh访问每个工作机器(主机和工作机器之间应该有密码少ssh )。
配置conf / slaves文件后,您应该运行两个文件:
sbin / start-master.sh - 在机器上启动主实例 脚本在。上执行。
sbin / start-slaves.sh - 在每台计算机上启动从属实例 在conf / slaves文件中指定。
有关详情,请查看Cluster Launch Scripts