标签: apache-spark
根据Spark doc,有5个级别的数据位置:
除了NO_PREF之外,所有这些都非常清楚(来自Spark doc:“数据可以从任何地方同样快速地访问,并且没有地区偏好”)
是什么情况可以使用NO_PREF?
答案 0 :(得分:1)
RDD特征之一是首选位置。例如,如果RDD源是HDFS文件,则首选位置应包含数据物理位置的数据节点。但是,如果数据来自或Spark无法确定首选位置没有区别,Spark会在处理此类RDD期间创建数据位置设置为NO_PREF的任务。