Question

我正在使用Kafka HDFS Connect。

我想从Kafka主题的JSON中写入Parquet文件。

我想用“ schema”，“ payload”创建JSON，如下所示（来自SO Question）：

{
"schema": {
    "type": "struct",
    "fields": [{
        "type": "int32",
        "optional": true,
        "field": "c1"
    }, {
        "type": "string",
        "optional": true,
        "field": "c2"
    }, {
        "type": "int64",
        "optional": false,
        "name": "org.apache.kafka.connect.data.Timestamp",
        "version": 1,
        "field": "create_ts"
    }, {
        "type": "int64",
        "optional": false,
        "name": "org.apache.kafka.connect.data.Timestamp",
        "version": 1,
        "field": "update_ts"
    }],
    "optional": false,
    "name": "foobar"
},
"payload": {
    "c1": 10000,
    "c2": "bar",
    "create_ts": 1501834166000,
    "update_ts": 1501834166000
}
}

有一个自动工具是使用kafka connect类型从JSON创建架构吗？

我的属性如下：

connector.class=io.confluent.connect.hdfs.HdfsSinkConnector
flush.size=3
format.class=io.confluent.connect.hdfs.parquet.ParquetFormat
key.converter=org.apache.kafka.connect.json.JsonConverter
value.converter=org.apache.kafka.connect.json.JsonConverter
schema.compatability=BACKWARD
key.converter.schemas.enabled=false
value.converter.schemas.enabled=false
schemas.enable=false

创建架构后应该更改/添加什么？

谢谢

从JSON创建架构以使用Kafka Sink将Parquet写入HDFS

0 个答案: