如何部署具有多个主题和表目标的kafka接收器连接

时间:2020-04-15 02:42:58

标签: sql-server apache-kafka kafka-consumer-api apache-kafka-connect

在我的previous question中,我决定就消费者部署与Kafka分布式数据库进行实时同步获得更多的同意。同样的情况;我想将数百个表从PostgreSQL拉到SQL Server。从PostgreSQL到Kafka,我将Debezium连接器与wal2json插件一起使用。从Kafka到SQL Server,我使用JDBC连接器。我有三个相同的设置代理(不同的地址):

broker.id=0
broker.rack=1
port=9093
listeners=PLAINTEXT://0.0.0.0:9093
advertised.listeners=PLAINTEXT://localhost:9093
log.dir=/home/admin/kafka/tmp/kafka_log1
offsets.topic.num.partition=1
offsets.topic.replication.factor=3
min.isnyc.replicas=2
default.replication.factor=3
zookeeper.connect=localhost:2181,localhost:2182,localhost:2183
zookeeper.connection.timeout.ms=7200000
delete.topic.enable=true
message.max.bytes=50497182 
replica.fetch.max.bytes=50497182
group.max.session.timeout.ms=7200000

我已经尝试过一些可能的解决方案,例如:

  1. 将主题设置为使用1个分区和3个副本。由于我的表的名称为_,因此我对此有所警告。
kafka-topics.sh -create --bootstrap-server localhost:9093,localhost:9094,localhost:9095  --replication-factor 3 --partitions 1 --topic $topic_name --config retention.ms=5400000
  1. 我用不同的工人将debezium和jdbc连接器分开。我有两个配置相同的工作器(主机端口除外,debezium为8085,接收器为8084),如下所示:
bootstrap.servers=localhost:9093,localhost:9094,localhost:9095
group.id=debezium-cluster
key.converter.schemas.enable=true
value.converter.schemas.enable=true
key.converter=org.apache.kafka.connect.json.JsonConverter
value.converter=org.apache.kafka.connect.json.JsonConverter
offset.storage.topic=connect-offsets-debezium
offset.storage.replication.factor=3
config.storage.topic=connect-configs-debezium
status.storage.topic=connect-status-debezium
producer.buffer.memory=29999999
producer.max.buffered.records=19999999
producer.max.request.size=51497182 
producer.retries=100
producer.max.in.flight.requests.per.connection=1
producer.request.timeout.ms=20000
producer.enable.idempotence=true
producer.retry.backoff.ms=500
producer.send.buffer.bytes=50497182
producer.receive.buffer.bytes=50497182
producer.ack=1
offset.flush.timeout.ms=300000
producer.buffer.memory=51497182
consumer.enable.auto.commit=true
consumer.retries=100
consumer.auto.commit.interval.ms=100000
consumer.max.partition.fetch.bytes=50497182
consumer.max.poll.records=10000
consumer.request.timeout.ms=20000
consumer.retry.backoff.ms=50000
consumer.session.timeout.ms=50000
consumer.auto.offset.reset=latest
consumer.isolation.level=read_committed
consumer.max.poll.interval.ms=5400000
fetch_max_bytes=50497182
rest.port=8085
plugin.path=/home/admin/kafka/connectors
  1. 没有一个的一对一水槽连接器:
#!/bin/bash
CSV_LIST="/home/admin/kafka/main/config/tables/table_lists.csv"
DATA=${CSV_LIST}

while IFS=',' read table pk mode; do
topic_name=${table} 
curl -X POST http://localhost:8084/connectors -H 'Content-Type:application/json' -d '{"name" :"sqlservercon_'$topic_name'",
    "config":{"connector.class":"io.confluent.connect.jdbc.JdbcSinkConnector",
            "topics":"'$table'",
            "connection.url":"jdbc:sqlserver://-:1433",
            "connection.user":"-",
            "connection.password":"-",
            "transforms":"unwrap",
            "transforms.unwrap.type":"io.debezium.transforms.ExtractNewRecordState",
            "transforms.unwrap.drop.tombstones":"false",
            "auto.create":"true",
            "insert.mode":"'$mode'",
            "pk.fields":" '$pk'",
            "pk.mode":"record_value",
            "destination.table.format":"db.dbo.'$table'"
}}' | jq
done < ${DATA}

这是我的部署方式:

  1. 启动zookeeper和kafka服务器
  2. 创建主题
  3. 为Debezium来源启动kafka工人
  4. 添加debezium连接器(因为1 db仅需要一个连接器)
  5. 启动卡夫卡工人下沉
  6. 通过循环添加jdbc连接器

不幸的是,由于一些僵局和用户不了解,将所有数据都移到新的SQL Server数据库中仍然令我不满意。我想知道是否有关于最佳消费者部署的好建议。我是否需要为每个连接器添加一个工作线程,或者做一些在每个主题之间切换的操作。

1 个答案:

答案 0 :(得分:0)

我检查了一下,我认为由于Kafka将jdbc使用batch.record连接到应该发送到SQL Server的组织记录数上,当我使用具有大容量记录的upsert时似乎出现了问题。我假设我必须将源和接收器的批次减少到1个。这仍是初步答案。而且,如果有人知道如何显示用于在Kafka connect JDBC中插入的SQL查询,那么这对我了解有关JDBC行为的机制以及如何解决死锁的问题将很有帮助。

根据我的经验,如果存在目标数据库,但里面没有表,则最佳实践是确定必须首先插入哪个表,然后等到完成后再使用而不使用插入。对于少于100000行的表,可以将其分组为一组,但是大尺寸表必须单独拉出。