在Apache Spark中,如何检查RDD是否已完全计算并保留在内存中?

时间:2016-03-27 01:43:21

标签: apache-spark rdd

Apache Spark中的RDD(即它的partititons)是懒惰计算的,但有时我想重新使用RDD的结果,如果它的所有分区都已经计算过并且结果在内存中,并且如果它们是不(例如对结果的执行计划进行一些优化)。是否可以使用RDD的API来检查这个?

1 个答案:

答案 0 :(得分:0)

最好的方法是检查Web UI中的RDD详细信息。 Web UI中的存储选项卡将为您提供RDD列表以及持久保存的百分比。你也有一个REST API。但是,我更愿意在Web UI中检查它们。每个spark应用程序都有一个Web UI,通常使用端口4040或4041.

REST API

更多细节:

https://blueplastic.gitbooks.io/how-to-light-your-spark-on-a-stick/content/spark_web_uis/spark_storage_ui.html

如果您需要任何进一步的详细信息,请与我们联系。