我正在使用云Dataproc作为我的研究的云服务。在此平台(云)上运行Hadoop和spark作业比在较低容量的虚拟机上运行相同作业要慢一些。我正在云上运行3节点集群(每个集成7.5gb RAM和50GB磁盘)上的Hadoop作业,耗时4分49秒,而同样的作业在单节点虚拟机(我的电脑)上耗时3分20秒,内存为3GB RAM和27GB磁盘。为什么在使用多节点群集的云中结果比在普通PC上慢?
答案 0 :(得分:1)
首先: 如果不知道完整的配置和正在运行的工作类型,就不容易回答。
可能的原因是:
http://HOSTNAME:8080 打开ressourcemanager webapp并比较可用的vcores和内存
Job在运行并行化时会增加更多开销,因此速度较慢
我会说它类似于1.和2.
有关更详细的回答,请告诉我:
BR
答案 1 :(得分:0)
在这里更加详细一些有趣的数字/事实,找出“慢”云环境的原因:
工作类型和尺寸:
Hadoop配置: