为Kafka + Spark构建RDBMS数据解决方案

时间:2017-06-25 04:35:08

标签: apache-kafka

我当前的项目在MainFrames中,DB2作为其数据库。我们有70个数据库,每个数据库有近60个表。我们的架构师提出了一个使用Kafka和Spark流处理数据的计划。 Kafka在读取数据的RDBMS表时有多好?我们是否使用Kafka直接从表中读取数据,还是有其他方法可以将数据从RDBMS传输到Kafka? 如果有更好的解决方案,您的建议可以提供很多帮助。

1 个答案:

答案 0 :(得分:1)

不要直接从数据库中读取,否则会产生额外的负载。我建议采用两种方法。

  1. 将新数据发送到数据库和Kafka,或将其发送到Kafka,然后进行处理。

  2. 从数据库预写日志中读取数据(我知道MySQL可能有Maxwell,但我不确定DB2)并将其发送给Kafka进行进一步处理。

  3. 您可以根据需要使用Spark Streaming或Kafka Streams