kafka连接器debezium mongodb CDC更新/ $ set消息,不带过滤器(_id值)

时间:2019-08-01 08:49:34

标签: mongodb apache-kafka-connect debezium mongodb-oplog

我正在尝试使用debezium mongodb连接器设置从mongodb到kudu的同步。但是正如debezium doc告诉我的,而且我自己尝试过后发现,debezium mongodb CDC更新/ $ set消息没有过滤器(_id值)。

{
    "after": null,
    "patch": "{\"$v\" : 1,\"$set\" : {\"_upts_ratio_average_points\" : {\"$numberLong\" : \"1564645156749\"},\"updatets\" : {\"$numberLong\" : \"1564645156749\"}}}",
    "source": {
        "version": "0.9.5.Final",
        "connector": "mongodb",
        "name": "promongodbdeb05",
        "rs": "mgset-13056897",
        "ns": "strtest.mg_jsd_result_all",
        "sec": 1564645156,
        "ord": 855,
        "h": -1570214265415439167,
        "initsync": false
    },
    "op": "u",
    "ts_ms": 1564648181536
}

我不明白为什么这样设计,如果没有过滤器,实际上不知道要更新哪个文档。我下载了此连接器的源代码并尝试对其进行修复。看起来类io.debezium.connector.mongodb.transforms.UnwrapFromMongoDbEnvelope是用以下代码提取MongoDB op日志消息的地方。而且该文件具有_idid两种操作的混淆,并且看起来连接器的提交者确实试图在CDC更新消息中包含_id值。重建和部署连接器后,我尝试将CDC消息中的valueDocument.append("id", keyDocument.get("id"));更改为valueDocument.append("id", keyDocument.get("_id"));仍然没有_id的值。

任何熟悉debezium的人都可以帮助我吗?

{
    private BsonDocument getUpdateDocument(R patchRecord, BsonDocument keyDocument) {
        BsonDocument valueDocument = new BsonDocument();
        BsonDocument document = BsonDocument.parse(patchRecord.value().toString());

        if (document.containsKey("$set")) {
            valueDocument = document.getDocument("$set");
        }

        if (document.containsKey("$unset")) {
            Set<Entry<String, BsonValue>> unsetDocumentEntry = document.getDocument("$unset").entrySet();

            for (Entry<String, BsonValue> valueEntry : unsetDocumentEntry) {
                // In case unset of a key is false we don't have to do anything with it,
                // if it's true we want to set the value to null
                if (!valueEntry.getValue().asBoolean().getValue()) {
                    continue;
                }
                valueDocument.append(valueEntry.getKey(), new BsonNull());
            }
        }

        if (!document.containsKey("$set") && !document.containsKey("$unset")) {
            if (!document.containsKey("_id")) {
                throw new ConnectException("Unable to process Mongo Operation, a '$set' or '$unset' is necessary " +
                        "for partial updates or '_id' is expected for full Document replaces.");
            }
            // In case of a full update we can use the whole Document as it is
            // see https://docs.mongodb.com/manual/reference/method/db.collection.update/#replace-a-document-entirely
            valueDocument = document;
            valueDocument.remove("_id");
        }

        if (!valueDocument.containsKey("id")) {
            valueDocument.append("id", keyDocument.get("id"));
        }

        if (flattenStruct) {
            final BsonDocument newDocument = new BsonDocument();
            valueDocument.forEach((fKey, fValue) -> newDocument.put(fKey.replace(".", delimiter), fValue));
            valueDocument = newDocument;
        }

        return valueDocument;
    }

}

@jiri,非常感谢您的答复,我一直这样说:

{ "after": null, "patch": "{\"$v\" : 1,\"$set\" : {\"_upts_ratio_average_points\" : {\"$numberLong\" : \"1564645156749\"},\"updatets\" : {\"$numberLong\" : \"1564645156749\"}}}", "source": { "version": "0.9.5.Final", "connector": "mongodb", "name": "promongodbdeb05", "rs": "mgset-13056897", "ns": "strtest.mg_jsd_result_all", "sec": 1564645156, "ord": 855, "h": -1570214265415439167, "initsync": false }, "op": "u", "ts_ms": 1564648181536 }

我搜索并发现其他人可以像本文一样获得debezium mongodb CDC: https://rmoff.net/2018/03/27/streaming-data-from-mongodb-into-kafka-with-kafka-connect-and-debezium/ 像这样: {   “之后”:{\“ _ id \”:{\“ $ oid \”:\“ 58385328e4b001431e4e497a \”},....

一个人可以看到我无法获得_id,所以我无法知道在哪个文档/记录上的更改,但是对于以上帖子,作者似乎可以得到_id ,同样通过检查代码,_id应该在那里。我同时使用了以上帖子中使用的0.9.5Final0.7.4 rev。两者对我来说都不是好运,总是没有_id值。

1 个答案:

答案 0 :(得分:-2)

在消费主题时,需要添加--property key.print=true。它将具有Key。该值位于key部分。谢谢