火花不均匀地分配负载

时间:2018-05-19 19:40:56

标签: java apache-spark

无论我投入多少资源,它都不能超过11分钟。

enter image description here

我正在尝试并行化一个简单的Spark程序并行处理HBase数据。

// Get Hbase RDD
JavaPairRDD<ImmutableBytesWritable, Result> hBaseRDD =
  jsc.newAPIHadoopRDD(
    conf,
    TableInputFormat.class,
    ImmutableBytesWritable.class,
    Result.class
  );

long count = hBaseRDD.count(); 

enter image description here

问题是我的程序和最大的栏一样慢。

发现ZK在关闭之前需要很长时间。

18/05/19 17:26:55 INFO zookeeper.ClientCnxn: Session establishment complete on server <IP>:2181, sessionid = 0x163662b64eb046d, negotiated timeout = 40000
18/05/19 17:38:00 INFO zookeeper.ZooKeeper: Session: 0x163662b64eb046d closed

0 个答案:

没有答案