最近,我在Microsoft Azure平台上使用Ambari设置了一个8节点Hadoop和Spark集群。群集中的每个节点(标准DS2 v2(2核,7 GB内存))都具有以下标准配置。
Memory : 7GB
HDD : 1TB
CPU : 2 cores
OS : Ubuntu 14.04
我正在尝试使用Intel HiBench套件运行一些基准测试,但执行wordcount工作负载所需的时间对我来说太过分了。所以我不确定这是否与我的配置有关或这是正常的。
我在conf / hibench.conf中指定的数据和作业配置如下所示。
Data : 1TB (bigdata)
Mapper number in hadoop, partition number in Spark
hibench.default.map.parallelism 8
# Reducer nubmer in hadoop, shuffle partition number in Spark
hibench.default.shuffle.parallelism 4
Spark运行wordcount工作量或工作的时间是8小时22分钟。这是正常的还是我的群集配置有问题。
有关我正在使用的基准测试工具的更多信息,请访问https://github.com/intel-hadoop/HiBench.