我们在Azure上运行1个namenode和3个datanode集群。最重要的是,我在Yarn-Cluster模式下运行我的火花作业。
此外,我们正在使用HDP 2.5,其设置中集成了火花1.6.2。现在我有这个非常奇怪的问题,我的工作处理时间突然增加到4s。
这已经发生了很多次,但没有遵循模式,有时4s等待时间是从工作开始,或者可能在工作的中间,如下所示。
有一点需要注意的是,我没有任何事件被处理,因此从技术上讲,处理时间应该保持不变。此外,我的火花流式传输作业的批次持续时间为1秒,因此无法实现。
我在日志或任何地方都没有任何错误,我正在迷失处理此问题。
有关工作的细节:
我正在读取kafka主题上的消息,然后使用Phoenix JDBC Connector将它们存储在Hbase表中。
编辑:更多信息
在InsertTransactionsPerRDDPartitions中,我使用Phoenix JDBC连接对HBase执行连接打开和写入操作。
updatedEventLinks.foreachRDD(rdd -> {
if(!rdd.isEmpty()) {
rdd.foreachPartition(new InsertTransactionsPerRDDPartitions(this.prop));
rdd.foreachPartition(new DoSomethingElse(this.kafkaPublishingProps, this.prop));
}
});