我有一个陷入同一点的过程。我知道的信息是详细信息页面上的任务索引(参考仪表板用户界面)。
如何在特定索引处完全调试/记录该任务?
基于回答:
How to get ID of a map task in Spark?
我可以看到如何获取任务信息。但是该对象中引用的UI仪表板中的ID是什么?
是ID = org.apache.spark.scheduler.TaskInfo.id和Index = org.apache.spark.schedulerTaskInfo.partionId?
答案 0 :(得分:0)
仪表板中的ID指的是spark中的分区。每当启动一个作业时,您的输入数据都会被分区,并且根据分区的数量,您将它们映射到任务ID。
调试火花作业不是一项微不足道的任务,因为它们会映射您的算法完成的数据减少任务。但事实上,添加日志以调试你的工作相当容易。必须在工作者或执行者的每个工作目录中收集日志。