无论我投入多少资源,它都不能超过11分钟。
我正在尝试并行化一个简单的Spark程序并行处理HBase数据。
// Get Hbase RDD
JavaPairRDD<ImmutableBytesWritable, Result> hBaseRDD =
jsc.newAPIHadoopRDD(
conf,
TableInputFormat.class,
ImmutableBytesWritable.class,
Result.class
);
long count = hBaseRDD.count();
问题是我的程序和最大的栏一样慢。
发现ZK在关闭之前需要很长时间。
18/05/19 17:26:55 INFO zookeeper.ClientCnxn: Session establishment complete on server <IP>:2181, sessionid = 0x163662b64eb046d, negotiated timeout = 40000
18/05/19 17:38:00 INFO zookeeper.ZooKeeper: Session: 0x163662b64eb046d closed