如何确定spark独立群集模式下的工作人员数量? 当我在独立群集模式下添加工作程序时,持续时间将减少。
例如,对于我的输入数据3.5 G,WordCount需要3.8分钟。但是,在我添加一名内存为4 G的工作人员后需要2.6分钟。
添加工作人员调整火花是否可以?我正在考虑风险。
我的环境设置如下,
输入数据信息
答案 0 :(得分:1)
您可以调整执行程序(JVM的数量及其内存)以及任务数。如果您正在做的事情可以从并行性中受益,您可以通过配置来旋转更多执行程序并增加任务数量(通过在代码中调用分区/合并等)。
当您设置并行度时,如果您正在进行大多数IO或计算等,一般来说Spark recommendation每个CPU核心有2-3个任务