应用错误收集

使用KAFKA和非事务数据库自动缩放

时间：2019-04-12 19:04:56

标签： apache-kafka kafka-consumer-api

说，我有一个应用程序，它从KAFKA读取一批数据，它使用传入消息的密钥并向HBase进行查询（从HBase读取这些密钥的当前数据），进行一些计算并写入数据返回HBase以获取相同的密钥集。例如。

{K1，V1}，{K2，V2}，{K3，V3}（来自KAFKA的传入消息）->我的应用程序（从HBase读取K1，K2和K3的当前值，使用传入值V1 ，V2和V3进行一些计算，并在处理完成后将K1（V1 + x），K2（V2 + y）和K3（V3 + z）的新值写回到HBase。

现在，假设我有一个用于KAFKA主题的分区，一个消费者。我的应用程序有一个处理数据的使用者线程。

问题在于HBase出现故障，这时我的应用程序停止了处理消息的过程，而KAFKA却陷入了巨大的滞后。即使我有能力增加分区的数量并相应地增加使用方，但是由于HBase中的RACE条件，我不能增加任何一个。 HBase不支持行级别锁定，因此，如果现在我增加分区的数量，则相同的密钥可以转到两个不同的分区，并且对应于两个不同的使用者，这些使用者最终可能处于RACE状态，最后写入的人就是赢家。在增加分区数量之前，我将不得不等待所有消息处理完毕。

例如

HBase崩溃->最初，我为该主题分配了一个分区，并且在分区0中存在未处理的消息-> {K3，V3}->现在，我增加了分区数量，并且密钥为K3的消息现在现在，假设在分区0和1中->然后，从分区0消耗的使用者和从分区1消耗的另一个使用者将最终竞争写入HBase。

有解决问题的方法吗？当然，由于消费者正在处理消息，因此锁定密钥K3并不是解决方案，因为我们正在处理大数据。

3 个答案:

答案 0 :(得分：1)

一条消息将仅出现在一个kafka分区中。它在消息上使用哈希函数以分区数为模。我相信这项保证可以解决您的问题。

但是请记住，如果更改分区数，则可以将同一消息密钥分配给其他分区。如果您只关心每个分区只能保证的消息顺序，那可能会很重要。如果您不关心邮件的排序，则不能选择重新分区（例如增加分区数）。

答案 1 :(得分：1)

增加分区数量时，只有新消息会出现在新添加的分区中。 Kafka负责一次只处理一条消息

答案 2 :(得分：0)

正如Vassilis所说，Kafka保证单个密钥只能在一个分区中。有here种如何在分区上分配密钥的方法。
当您增加分区数或更改分区策略时，可能会发生重新平衡过程，这可能会影响正常工作的使用者。如果停止使用者一段时间，可以避免两个使用者处理相同密钥的可能性。