即使持久存在,spark history服务器也不会显示RDD

时间:2017-02-23 01:43:22

标签: apache-spark rdd

我在spark版本2.0.2中运行spark shell。这是我的程序,

var myrdd = sc.parallelize(Array.range(1, 10))
myrdd.setName("test")
myrdd.cache
myrdd.collect

但我仍然无法在spark历史记录服务器的“storage”选项卡中看到任何RDD信息。

我看了this,但由于我在那里提到了类似的程序,所以没有帮助。有人可以帮忙吗?

2 个答案:

答案 0 :(得分:0)

基本上,spark历史服务器和spark UI有所不同。 Spark UI仅在spark上下文处于活动状态时可用。即使在Spark程序完成后,Spark历史服务器也可用。 Spark历史记录服务器从事件日志文件加载数据,该文件捕获Spark程序生命周期中的各种事件。但事件日志不捕获与RDD相关的事件(为了避免增加事件日志文件的大小),因此即使存在"存储"火花历史记录服务器中的选项卡,它不显示任何RDD信息,因为RDD相关数据未存储在事件日志中。

答案 1 :(得分:0)

Spark历史记录服务器会在上下文停止后显示数据。因此,所有缓存将自动丢失。我们将没有缓存信息。