我使用Standalone Spark Cluster
来处理多个文件。当我执行驱动程序时,使用它的核心处理每个工作人员的数据。
现在,我已经阅读了Partitions
,但如果它与工作核心有所不同,我就无法获得它。
设置cores number
和partition numbers
之间有区别吗?
答案 0 :(得分:6)
简单视图:分区与核心数
当您调用RDD操作时,
答案 1 :(得分:2)
分区(或任务)是指工作单元。如果你有一个200G的hadoop文件作为RDD加载并且被128M(Spark默认值)分块,那么你在这个RDD中有~2000个分区。核心数决定了任何时候可以处理多少个分区,最多2000个(以分区/任务数量为上限)可以并行执行此RDD。