java - SPARK分区和工作核心有什么区别？

时间：2016-11-21 20:45:53

标签： java hadoop apache-spark

我使用Standalone Spark Cluster来处理多个文件。当我执行驱动程序时，使用它的核心处理每个工作人员的数据。

现在，我已经阅读了Partitions，但如果它与工作核心有所不同，我就无法获得它。

设置cores number和partition numbers之间有区别吗？

答案 0 :(得分：6)

简单视图：分区与核心数

当您调用RDD操作时，

答案 1 :(得分：2)

分区（或任务）是指工作单元。如果你有一个200G的hadoop文件作为RDD加载并且被128M（Spark默认值）分块，那么你在这个RDD中有~2000个分区。核心数决定了任何时候可以处理多少个分区，最多2000个（以分区/任务数量为上限）可以并行执行此RDD。