警告 TaskSchedulerImpl:初始作业尚未接受任何资源

时间:2021-06-22 09:06:32

标签: apache-spark

当我运行 spark-shell 并读取我的 spark-standalone 集群上的 parquet 文件时,一开始我会得到

" WARN TaskSchedulerImpl: 初始作业未接受任何资源;检查您的集群 UI 以确保工作人员已注册并有足够的资源"

但再过几次,我的工人就会被注册,工作就可以完成了。那么我可以做 df.count。

日志是这样的:

21/06/22 18:40:36 WARN TaskSchedulerImpl:初始作业没有接受任何资源;检查您的集群 UI 以确保工作人员已注册并拥有足够的资源

21/06/22 18:40:36 DEBUG TaskSchedulerImpl: parentName: , name: TaskSet_0.0, runningTasks: 0

21/06/22 18:40:37 DEBUG TaskSchedulerImpl: parentName: , name: TaskSet_0.0, runningTasks: 0

21/06/22 18:40:38 DEBUG TaskSchedulerImpl: parentName: , name: TaskSet_0.0, runningTasks: 0

21/06/22 18:40:49 DEBUG TaskSchedulerImpl: parentName: , name: TaskSet_0.0, runningTasks: 0

21/06/22 18:40:50 INFO CoarseGrainedSchedulerBackend$DriverEndpoint:已注册的执行程序 NettyRpcEndpointRef(spark-client://Executor) (*****:58638),ID 为 0

21/06/22 18:40:50 DEBUG TaskSchedulerImpl: parentName: , name: TaskSet_0.0, runningTasks: 0

21/06/22 18:40:50 DEBUG TaskSetManager:TaskSet 0.0 的有效位置级别:NO_PREF,ANY

21/06/22 18:40:50 INFO TaskSetManager:在阶段 0.0 中启动任务 0.0(TID 0,***** 执行程序 0,分区 0,PROCESS_LOCAL,8058 字节)

21/06/22 18:40:50 DEBUG TaskSetManager:没有本地级别 NO_PREF 的任务,所以移动到本地级别 ANY

21/06/22 18:40:50 DEBUG DefaultTopologyMapper:收到 172.19.0.82 的请求

21/06/22 18:40:50 INFO BlockManagerMasterEndpoint:注册块管理器 *****:42088 和 3.0 GB RAM,BlockManagerId(0, *****, 42088, None)

21/06/22 18:40:50 DEBUG CoarseGrainedSchedulerBackend$DriverEndpoint:在执行程序 ID 上启动任务 0:0 主机名:*****。

21/06/22 18:40:50 DEBUG TaskSchedulerImpl: parentName: , name: TaskSet_0.0, runningTasks: 1

[阶段 0:> (0 + 1) / 1]21/06/22 18:40:51 DEBUG BlockManager:获取本地块 broadcast_0_piece0 作为字节

21/06/22 18:40:51 DEBUG BlockManager:块 broadcast_0_piece0 的级别是 StorageLevel(磁盘,内存,1 个副本)

21/06/22 18:40:51 INFO BlockManagerInfo:在 *****:42088 的内存中添加了 broadcast_0_piece0(大小:26.6 KB,免费:3.0 GB)

21/06/22 18:40:51 DEBUG TaskSchedulerImpl: parentName: , name: TaskSet_0.0, runningTasks: 1

21/06/22 18:40:52 DEBUG TaskSchedulerImpl: parentName: , name: TaskSet_0.0, runningTasks: 0

21/06/22 18:40:52 INFO TaskSetManager:在 *****(执行程序 0)(1/1)的 2462 毫秒内完成了阶段 0.0(TID 0)中的任务 0.0

21/06/22 18:40:52 INFO TaskSchedulerImpl:从池中移除任务集 0.0,其任务已全部完成

21/06/22 18:40:52 INFO DAGScheduler:ResultStage 0(镶木地板时间:23)在 121.699 秒内完成

21/06/22 18:40:52 DEBUG DAGScheduler:移除阶段 0 后,剩余阶段 = 0

21/06/22 18:40:52 INFO DAGScheduler:作业 0 完成:镶木地板时间:23,耗时 121.753858 秒

df: org.apache.spark.sql.DataFrame = [SOURCE: string, EXTERNAL_CUSTOMER_ID: string ... 19 更多字段]

================================================ ====================================== 谁能告诉我为什么我一开始得到“初始工作没有接受任何资源”?因为它,我不得不等待这么长时间。

提前感谢任何线索和建议。

0 个答案:

没有答案