在AWS群集上运行spark作业时,我相信我已正确更改了代码,以分发数据和我正在使用的算法的工作。但输出看起来像这样:
data: [
{
type: "column",
dataPoints: <?php echo $graphData; ?>
}
我是否正确将0 + 2/1000解释为只有一个双核处理器一次执行1000个任务中的一个?有5个节点(10个处理器)为什么我不能看到0 + 10/1000?
答案 0 :(得分:2)
总共需要完成1000项任务。正在使用2个核心来完成1000个任务。我不确定您的设置(并且从未使用AWS集群),但我希望您在spark配置中检查spark.cores.max
。这指定了所有执行程序中使用的最大内核数。如果您可以显示作业的spark UI
答案 1 :(得分:2)
这看起来更像我想要的输出:
[Stage 2:=======> (143 + 20) / 1000]
[Stage 2:=========> (188 + 20) / 1000]
[Stage 2:===========> (225 + 20) / 1000]
[Stage 2:==============> (277 + 20) / 1000]
[Stage 2:=================> (326 + 20) / 1000]
[Stage 2:==================> (354 + 20) / 1000]
[Stage 2:=====================> (405 + 20) / 1000]
[Stage 2:========================> (464 + 21) / 1000]
[Stage 2:===========================> (526 + 20) / 1000]
[Stage 2:===============================> (588 + 20) / 1000]
[Stage 2:=================================> (633 + 20) / 1000]
[Stage 2:====================================> (687 + 20) / 1000]
[Stage 2:=======================================> (752 + 20) / 1000]
[Stage 2:===========================================> (824 + 20) / 1000]