Spark:如何在特定索引处调试/记录任务

时间:2016-06-23 13:53:44

标签: scala apache-spark

我有一个陷入同一点的过程。我知道的信息是详细信息页面上的任务索引(参考仪表板用户界面)。

如何在特定索引处完全调试/记录该任务?

基于回答:

How to get ID of a map task in Spark?

我可以看到如何获取任务信息。但是该对象中引用的UI仪表板中的ID是什么?

是ID = org.apache.spark.scheduler.TaskInfo.id和Index = org.apache.spark.schedulerTaskInfo.partionId?

1 个答案:

答案 0 :(得分:0)

仪表板中的ID指的是spark中的分区。每当启动一个作业时,您的输入数据都会被分区,并且根据分区的数量,您将它们映射到任务ID。

调试火花作业不是一项微不足道的任务,因为它们会映射您的算法完成的数据减少任务。但事实上,添加日志以调试你的工作相当容易。必须在工作者或执行者的每个工作目录中收集日志。