我是Apache Spark的新手,我使用的是为Hadoop 2.7预先构建的2.4.3版本。我需要收集有关RDD缓存的分区信息。我想从SparkContext sc
中获得与在Web Ui中看到的相同信息,进入“存储”选项卡-> RDD详细信息页面,尤其是Block Name
,Storage Level
,Size in Memory
,{ {1}},Size on Disk
用于缓存的每个RDD。
我尝试从Executors
调用getRDDStorageInfo
,但是它返回的Spark Context
对象仅包含分区数,而不包含分区详细信息。
RDDInfo
是否可以通过Spark Context获取每个现有分区的分区详细信息?