任务数据位置NO_PREF。什么时候使用?

时间:2016-04-14 07:52:52

标签: apache-spark

根据Spark doc,有5个级别的数据位置:

  • PROCESS_LOCAL
  • NODE_LOCAL
  • NO_PREF
  • RACK_LOCAL
  • ANY

除了NO_PREF之外,所有这些都非常清楚(来自Spark doc:“数据可以从任何地方同样快速地访问,并且没有地区偏好”)

是什么情况可以使用NO_PREF?

1 个答案:

答案 0 :(得分:1)

RDD特征之一是首选位置。例如,如果RDD源是HDFS文件,则首选位置应包含数据物理位置的数据节点。但是,如果数据来自或Spark无法确定首选位置没有区别,Spark会在处理此类RDD期间创建数据位置设置为NO_PREF的任务。