Spark - 远程Akka客户端解除关联

时间:2014-07-08 22:57:20

标签: mapreduce apache-spark

我正在AWS上设置Spark 0.9并且发现在启动交互式Pyspark shell时,我的执行者/远程工作者首先被注册:

14/07/08 22:48:05 INFO cluster.SparkDeploySchedulerBackend: Registered executor:
Actor[akka.tcp://sparkExecutor@ip-xx-xx-xxx-xxx.ec2.internal:54110/user/
Executor#-862786598] with ID 0

然后在我有机会运行任何东西之前几乎立即解除关联:

14/07/08 22:48:05 INFO cluster.SparkDeploySchedulerBackend: Executor 0 disconnected, 
so removing it
14/07/08 22:48:05 ERROR scheduler.TaskSchedulerImpl: Lost an executor 0 (already 
removed): remote Akka client disassociated

知道可能出错的是什么?我已经尝试过调整JVM选项spark.akka.frameSize和spark.akka.timeout,但我很确定这不是问题,因为(1)我没有运行任何东西开始,(2)我的执行者在启动后几秒钟断开连接,这完全在默认的100秒超时内。

谢谢!

杰克

1 个答案:

答案 0 :(得分:1)

我有一个非常相似的问题,如果不一样的话。 一旦工人通过使用与主人认为的名字相同的名字连接到主人,它就开始为我工作。

我的日志消息类似于:

ERROR remote.EndpointWriter: AssociationError [akka.tcp://sparkWorker@idc1-hrm1.heylinux.com:7078] -> [akka.tcp://sparkMaster@vagrant-centos64.vagrantup.com:7077]: Error [Association failed with [akka.tcp://sparkMaster@vagrant-centos64.vagrantup.com:7077]]. ERROR remote.EndpointWriter: AssociationError [akka.tcp://sparkWorker@192.168.121.127:7078] -> [akka.tcp://sparkMaster@idc1-hrm1.heylinux.com:7077]: Error [Association failed with [akka.tcp://sparkMaster@idc1-hrm1.heylinux.com:7077]]

WARN util.Utils: Your hostname, idc1-hrm1 resolves to a loopback address: 127.0.0.1; using 192.168.121.187 instead (on interface eth0)

因此,请检查主服务器的日志,并查看它认为具有的名称。 然后在工人身上使用同样的名字。