为什么Hadoop作业在云(使用多节点群集)中比在普通PC上慢?

时间:2017-09-06 12:37:33

标签: hadoop apache-spark cloud virtual-machine google-cloud-dataproc

我正在使用云Dataproc作为我的研究的云服务。在此平台(云)上运行Hadoop和spark作业比在较低容量的虚拟机上运行相同作业要慢一些。我正在云上运行3节点集群(每个集成7.5gb RAM和50GB磁盘)上的Hadoop作业,耗时4分49秒,而同样的作业在单节点虚拟机(我的电脑)上耗时3分20秒,内存为3GB RAM和27GB磁盘。为什么在使用多节点群集的云中结果比在普通PC上慢?

2 个答案:

答案 0 :(得分:1)

首先: 如果不知道完整的配置和正在运行的工作类型,就不容易回答。

可能的原因是:

  1. missconfiguration
  2. http://HOSTNAME:8080 打开ressourcemanager webapp并比较可用的vcores和内存

    1. 工作类型
    2. Job在运行并行化时会增加更多开销,因此速度较慢

      1. 硬件 选定的虚拟硬件比本地硬件慢。 Thourgh低磁盘io和网络开销
      2. 我会说它类似于1.和2.

        有关更详细的回答,请告诉我:

        • 作业的大小和类型以及如何运行它。
        • hadoop配置
        • 云架构

        BR

答案 1 :(得分:0)

在这里更加详细一些有趣的数字/事实,找出“慢”云环境的原因:

  1. 工作类型和尺寸:

    • 数据大小1mb或1TB
    • xml,镶木地板....
    • 什么样的过程(例如wordcount,格式变化,ml,....) 当然还有火花提交或火花壳的选项(执行者和驱动程序)
  2. Hadoop配置:

    • 你使用发行版(hortonworks或cloudera?)
    • 独立火花或纱线模式
    • 如何配置nodemangers