Question

我们在Azure上运行1个namenode和3个datanode集群。最重要的是，我在Yarn-Cluster模式下运行我的火花作业。

此外，我们正在使用HDP 2.5，其设置中集成了火花1.6.2。现在我有这个非常奇怪的问题，我的工作处理时间突然增加到4s。

这已经发生了很多次，但没有遵循模式，有时4s等待时间是从工作开始，或者可能在工作的中间，如下所示。

有一点需要注意的是，我没有任何事件被处理，因此从技术上讲，处理时间应该保持不变。此外，我的火花流式传输作业的批次持续时间为1秒，因此无法实现。

我在日志或任何地方都没有任何错误，我正在迷失处理此问题。

有关工作的细节：

我正在读取kafka主题上的消息，然后使用Phoenix JDBC Connector将它们存储在Hbase表中。

编辑：更多信息

在InsertTransactionsPerRDDPartitions中，我使用Phoenix JDBC连接对HBase执行连接打开和写入操作。

updatedEventLinks.foreachRDD(rdd -> {
  if(!rdd.isEmpty()) {
  rdd.foreachPartition(new InsertTransactionsPerRDDPartitions(this.prop));
  rdd.foreachPartition(new DoSomethingElse(this.kafkaPublishingProps, this.prop));
 }
});

火花作业处理时间增加到4秒而没有解释

0 个答案: