火花作业处理时间增加到4秒而没有解释

时间:2017-04-19 12:48:00

标签: apache-spark java-8 hbase spark-streaming phoenix

我们在Azure上运行1个namenode和3个datanode集群。最重要的是,我在Yarn-Cluster模式下运行我的火花作业。

此外,我们正在使用HDP 2.5,其设置中集成了火花1.6.2。现在我有这个非常奇怪的问题,我的工作处理时间突然增加到4s。

这已经发生了很多次,但没有遵循模式,有时4s等待时间是从工作开始,或者可能在工作的中间,如下所示。

Sudden Increase to 4s

有一点需要注意的是,我没有任何事件被处理,因此从技术上讲,处理时间应该保持不变。此外,我的火花流式传输作业的批次持续时间为1秒,因此无法实现。

我在日志或任何地方都没有任何错误,我正在迷失处理此问题。

有关工作的细节:

我正在读取kafka主题上的消息,然后使用Phoenix JDBC Connector将它们存储在Hbase表中。

编辑:更多信息

在InsertTransactionsPerRDDPartitions中,我使用Phoenix JDBC连接对HBase执行连接打开和写入操作。

updatedEventLinks.foreachRDD(rdd -> {
  if(!rdd.isEmpty()) {
  rdd.foreachPartition(new InsertTransactionsPerRDDPartitions(this.prop));
  rdd.foreachPartition(new DoSomethingElse(this.kafkaPublishingProps, this.prop));
 }
});

0 个答案:

没有答案