Spark历史记录服务器未显示“完整”应用程序

时间:2017-03-07 06:43:29

标签: apache-spark ibm-cloud data-science-experience

我正在尝试调整慢速运行的DSX作业。

我已从Bluemix上的基础spark服务导航到spark历史记录服务器(根据此question)。

我已经执行了一个包含一些基本火花代码的单元格:

In [1]:
x = sc.parallelize(range(1, 1000000))
x.collect()

Out[1]:
[1,
 2,
 3,
 4,
 5,
 ...

然后我在浏览器中刷新了“作业历史记录服务器”页面,但是,火花历史记录服务器没有显示任何完整的应用程序:

enter image description here

如何找到“完整”的应用程序?

更新

我所指的Spark服务是IBM在Bluemix上的托管Spark服务,因此我无法控制配置。

更新2

看起来日期已经损坏,这就是为什么我没有看到完成的工作:

enter image description here

3 个答案:

答案 0 :(得分:1)

笔记本上下文启动了一个Spark应用程序,它将在作业完成后继续运行20分钟。在此期间提交其他作业时,它将使用相同的应用程序并显示在同一历史记录条目中。因此,您无法在历史记录服务器中跟踪笔记本或Interactive API内核的作业/活动完成情况。

Spark活动在内核日志中生成输出,也许可以提供您正在寻找的信息。

答案 1 :(得分:0)

您是否将Spark群集配置为具有事件日志?像这样:

spark.eventLog.enabled true
spark.eventLog.dir hdfs://namenode/shared/spark-logs

答案 2 :(得分:0)

我已经接受了火花服务工程团队的考虑 - 这是一个众所周知的问题。