我正在尝试调整慢速运行的DSX作业。
我已从Bluemix上的基础spark服务导航到spark历史记录服务器(根据此question)。
我已经执行了一个包含一些基本火花代码的单元格:
In [1]:
x = sc.parallelize(range(1, 1000000))
x.collect()
Out[1]:
[1,
2,
3,
4,
5,
...
然后我在浏览器中刷新了“作业历史记录服务器”页面,但是,火花历史记录服务器没有显示任何完整的应用程序:
如何找到“完整”的应用程序?
更新
我所指的Spark服务是IBM在Bluemix上的托管Spark服务,因此我无法控制配置。
更新2
看起来日期已经损坏,这就是为什么我没有看到完成的工作:
答案 0 :(得分:1)
笔记本上下文启动了一个Spark应用程序,它将在作业完成后继续运行20分钟。在此期间提交其他作业时,它将使用相同的应用程序并显示在同一历史记录条目中。因此,您无法在历史记录服务器中跟踪笔记本或Interactive API内核的作业/活动完成情况。
Spark活动在内核日志中生成输出,也许可以提供您正在寻找的信息。
答案 1 :(得分:0)
您是否将Spark群集配置为具有事件日志?像这样:
spark.eventLog.enabled true
spark.eventLog.dir hdfs://namenode/shared/spark-logs
答案 2 :(得分:0)
我已经接受了火花服务工程团队的考虑 - 这是一个众所周知的问题。