我在DataStax Enterprise 4.7(DSE)上使用Spark 1.2.1作为3个节点(AWS vpc服务器)的独立群集。 当从主节点向它启动应用程序时,它通过第一阶段,但得到了一个远程Akka客户端解除关联"第二阶段的错误。 我还得到了#34;要求删除不存在的执行者0"错误。
没有YARN。
试图将AKKA超时设置为6000,没有任何改变。
Spark Web UI设置了所有端口,集群似乎没问题。
可能是超时问题吗?
ERROR 2015-07-09 12:59:24 org.apache.spark.scheduler.TaskSchedulerImpl:1xx.xx.xx.x1上丢失的执行程序1:远程Akka客户端解除关联 WARN 2015-07-09 12:59:24 org.apache.spark.scheduler.TaskSetManager:阶段1.0中的丢失任务6.0(TID 19,1xx.xx.x.x1):ExecutorLostFailure(执行者1丢失) WARN 2015-07-09 12:59:24 akka.remote.ReliableDeliverySupervisor:与远程系统的关联[akka.tcp://sparkExecutor@1xx.xx.x.x1:38145]失败,地址现在为[5000 ] 女士。原因是:[Disocociated]。 ERROR 2015-07-09 12:59:24 org.apache.spark.scheduler.cluster.SparkDeploySchedulerBackend:要求删除不存在的执行程序1 ERROR 2015-07-09 12:59:24 org.apache.spark.scheduler.cluster.SparkDeploySchedulerBackend:要求删除不存在的执行程序1 [第一阶段:============================================== =======> (5 + 0)/ 12] ERROR 2015-07-09 12:59:32 org.apache.spark.scheduler.TaskSchedulerImpl:1xx.xx.xx.x2上丢失的执行程序2:远程Akka客户端解除关联 WARN 2015-07-09 12:59:32 akka.remote.ReliableDeliverySupervisor:与远程系统的关联[akka.tcp://sparkExecutor@1xx.xx.xx.x2:33914]失败,地址现在为[5000 ] 女士。原因是:[Disocociated]。 WARN 2015-07-09 12:59:32 org.apache.spark.scheduler.TaskSetManager:阶段1.0中丢失的任务0.1(TID 20,1xx.xx.xx.x2):ExecutorLostFailure(执行者2丢失) ERROR 2015-07-09 12:59:32 org.apache.spark.scheduler.cluster.SparkDeploySchedulerBackend:要求删除不存在的执行程序2 ERROR 2015-07-09 12:59:32 org.apache.spark.scheduler.cluster.SparkDeploySchedulerBackend:要求删除不存在的执行程序2 [第一阶段:============================================== ======================================> (8 + -2)/ 12] ERROR 2015-07-09 13:01:03 org.apache.spark.scheduler.TaskSchedulerImpl:1xx.xx.xx.x3上的丢失执行程序3:远程Akka客户端解除关联 WARN 2015-07-09 13:01:03 akka.remote.ReliableDeliverySupervisor:与远程系统的关联[akka.tcp://sparkExecutor@1xx.xx.xx.x3:58630]失败,地址现在为[5000 ] 女士。原因是:[Disocociated]。 WARN 2015-07-09 13:01:03 org.apache.spark.scheduler.TaskSetManager:阶段1.0中丢失的任务1.1(TID 23,1xx.xx.xx.x3):ExecutorLostFailure(执行者3丢失) ERROR 2015-07-09 13:01:03 org.apache.spark.scheduler.cluster.SparkDeploySchedulerBackend:要求删除不存在的执行者3 ERROR 2015-07-09 13:01:03 org.apache.spark.scheduler.cluster.SparkDeploySchedulerBackend:要求删除不存在的执行者3 [第一阶段:============================================== ======================================> (8 + -3)/ 12
答案 0 :(得分:1)
我试图改变AKKA设置,端口等等,但最终解决方案是重新开始新的&清理AWS环境 - 重新安装DSE系统的3台新服务器。
:/