SPARK分区和工作核心有什么区别?

时间:2016-11-21 20:45:53

标签: java hadoop apache-spark

我使用Standalone Spark Cluster来处理多个文件。当我执行驱动程序时,使用它的核心处理每个工作人员的数据。

现在,我已经阅读了Partitions,但如果它与工作核心有所不同,我就无法获得它。

设置cores numberpartition numbers之间有区别吗?

2 个答案:

答案 0 :(得分:6)

简单视图:分区与核心数

当您调用RDD操作时,

  • A" Job"是为它创建的。所以,约伯是一份提交给火花的作品。
  • 工作分为" STAGE"基于洗牌边界!!!
  • 每个阶段根据RDD上的分区数进一步划分为任务。所以Task是spark的最小工作单元。
  • 现在,可以同时执行多少这些任务取决于"核心数量"可用!!!

答案 1 :(得分:2)

分区(或任务)是指工作单元。如果你有一个200G的hadoop文件作为RDD加载并且被128M(Spark默认值)分块,那么你在这个RDD中有~2000个分区。核心数决定了任何时候可以处理多少个分区,最多2000个(以分区/任务数量为上限)可以并行执行此RDD。