应用错误收集

为什么Hadoop作业在云（使用多节点群集）中比在普通PC上慢？

时间：2017-09-06 12:37:33

标签： hadoop apache-spark cloud virtual-machine google-cloud-dataproc

我正在使用云Dataproc作为我的研究的云服务。在此平台（云）上运行Hadoop和spark作业比在较低容量的虚拟机上运行相同作业要慢一些。我正在云上运行3节点集群（每个集成7.5gb RAM和50GB磁盘）上的Hadoop作业，耗时4分49秒，而同样的作业在单节点虚拟机（我的电脑）上耗时3分20秒，内存为3GB RAM和27GB磁盘。为什么在使用多节点群集的云中结果比在普通PC上慢？

2 个答案:

答案 0 :(得分：1)

首先：如果不知道完整的配置和正在运行的工作类型，就不容易回答。

可能的原因是：

missconfiguration

http://HOSTNAME:8080 打开ressourcemanager webapp并比较可用的vcores和内存

工作类型

Job在运行并行化时会增加更多开销，因此速度较慢

硬件选定的虚拟硬件比本地硬件慢。 Thourgh低磁盘io和网络开销

我会说它类似于1.和2.

有关更详细的回答，请告诉我：

作业的大小和类型以及如何运行它。
hadoop配置
云架构

答案 1 :(得分：0)

在这里更加详细一些有趣的数字/事实，找出“慢”云环境的原因：

工作类型和尺寸：
- 数据大小1mb或1TB
- xml，镶木地板....
- 什么样的过程（例如wordcount，格式变化，ml，....）当然还有火花提交或火花壳的选项（执行者和驱动程序）
Hadoop配置：
- 你使用发行版（hortonworks或cloudera？）
- 独立火花或纱线模式
- 如何配置nodemangers