DSE Spark独立群集启动应用程序'远程Akka客户端解除关联'错误

时间:2015-07-09 13:35:18

标签: amazon-web-services cassandra apache-spark datastax-enterprise

我在DataStax Enterprise 4.7(DSE)上使用Spark 1.2.1作为3个节点(AWS vpc服务器)的独立群集。 当从主节点向它启动应用程序时,它通过第一阶段,但得到了一个远程Akka客户端解除关联"第二阶段的错误。 我还得到了#34;要求删除不存在的执行者0"错误。

  • 没有YARN。

  • 试图将AKKA超时设置为6000,没有任何改变。

  • Spark Web UI设置了所有端口,集群似乎没问题。

可能是超时问题吗?

  

ERROR 2015-07-09 12:59:24 org.apache.spark.scheduler.TaskSchedulerImpl:1xx.xx.xx.x1上丢失的执行程序1:远程Akka客户端解除关联   WARN 2015-07-09 12:59:24 org.apache.spark.scheduler.TaskSetManager:阶段1.0中的丢失任务6.0(TID 19,1xx.xx.x.x1):ExecutorLostFailure(执行者1丢失)   WARN 2015-07-09 12:59:24 akka.remote.ReliableDeliverySupervisor:与远程系统的关联[akka.tcp://sparkExecutor@1xx.xx.x.x1:38145]失败,地址现在为[5000 ] 女士。原因是:[Disocociated]。   ERROR 2015-07-09 12:59:24 org.apache.spark.scheduler.cluster.SparkDeploySchedulerBackend:要求删除不存在的执行程序1   ERROR 2015-07-09 12:59:24 org.apache.spark.scheduler.cluster.SparkDeploySchedulerBackend:要求删除不存在的执行程序1   [第一阶段:============================================== =======> (5 + 0)/ 12] ERROR 2015-07-09 12:59:32 org.apache.spark.scheduler.TaskSchedulerImpl:1xx.xx.xx.x2上丢失的执行程序2:远程Akka客户端解除关联   WARN 2015-07-09 12:59:32 akka.remote.ReliableDeliverySupervisor:与远程系统的关联[akka.tcp://sparkExecutor@1xx.xx.xx.x2:33914]失败,地址现在为[5000 ] 女士。原因是:[Disocociated]。   WARN 2015-07-09 12:59:32 org.apache.spark.scheduler.TaskSetManager:阶段1.0中丢失的任务0.1(TID 20,1xx.xx.xx.x2):ExecutorLostFailure(执行者2丢失)   ERROR 2015-07-09 12:59:32 org.apache.spark.scheduler.cluster.SparkDeploySchedulerBackend:要求删除不存在的执行程序2   ERROR 2015-07-09 12:59:32 org.apache.spark.scheduler.cluster.SparkDeploySchedulerBackend:要求删除不存在的执行程序2   [第一阶段:============================================== ======================================> (8 + -2)/ 12] ERROR 2015-07-09 13:01:03 org.apache.spark.scheduler.TaskSchedulerImpl:1xx.xx.xx.x3上的丢失执行程序3:远程Akka客户端解除关联   WARN 2015-07-09 13:01:03 akka.remote.ReliableDeliverySupervisor:与远程系统的关联[akka.tcp://sparkExecutor@1xx.xx.xx.x3:58630]失败,地址现在为[5000 ] 女士。原因是:[Disocociated]。   WARN 2015-07-09 13:01:03 org.apache.spark.scheduler.TaskSetManager:阶段1.0中丢失的任务1.1(TID 23,1xx.xx.xx.x3):ExecutorLostFailure(执行者3丢失)   ERROR 2015-07-09 13:01:03 org.apache.spark.scheduler.cluster.SparkDeploySchedulerBackend:要求删除不存在的执行者3   ERROR 2015-07-09 13:01:03 org.apache.spark.scheduler.cluster.SparkDeploySchedulerBackend:要求删除不存在的执行者3   [第一阶段:============================================== ======================================> (8 + -3)/ 12

1 个答案:

答案 0 :(得分:1)

我试图改变AKKA设置,端口等等,但最终解决方案是重新开始新的&清理AWS环境 - 重新安装DSE系统的3台新服务器。

:/