为什么Spark工作花费更多时间来增加(增加)内存。
场景:在3节点Spark群集中,我正在运行一个spark文件,它从文件读取记录并将其写入Cassandra.Spark作业大约需要1.5分钟,应用程序内存 512MB 和驱动程序内存 256MB 。当我将应用程序内存和驱动程序内存分别增加到 2gb 和 1gb 时,spark工作大约需要1.9分钟完成。
在这两种情况下,核心数都是8。
以下是GC日志:
2.427:[GC [PSYoungGen:132096K-> 18186K(153600K)] 132096K-> 18258K(503296K),0.0286130 secs] [次:用户= 0.06 sys = 0.01,real = 0.03 secs]
9.122:[GC [PSYoungGen:135158K-> 21493K(153600K)] 135230K-> 24832K(503296K),0.0614060 secs] [次:用户= 0.10 sys = 0.06,real = 0.06 secs]
338.579:[GC [PSYoungGen:153589K-> 21489K(153600K)] 156928K-> 51431K(503296K),0.0619670 secs] [次:用户= 0.10 sys = 0.02,real = 0.06 secs]
增加内存,Spark工作应该花费更少的时间,但为什么需要更多时间?