如何在Kafka Avro生成器中发送对象的ArrayList而不为每个单独的记录调用send方法?

时间:2018-04-24 20:07:55

标签: java arraylist apache-kafka avro confluent-kafka

我使用以下代码将User类的Avro记录生成到Kafka主题中,并且它运行正常;

发件人类

import org.apache.avro.Schema;
import org.apache.avro.generic.GenericData;
import org.apache.avro.generic.GenericDatumReader;
import org.apache.avro.generic.GenericRecord;
import org.apache.avro.io.DecoderFactory;
import org.apache.avro.io.EncoderFactory;
import org.apache.avro.reflect.ReflectData;
import org.apache.avro.reflect.ReflectDatumWriter;
import org.apache.kafka.clients.producer.KafkaProducer;
import org.apache.kafka.clients.producer.ProducerConfig;
import org.apache.kafka.clients.producer.ProducerRecord;

import java.io.ByteArrayOutputStream;
import java.io.IOException;
import java.util.Properties;

import vo.User;

public class Sender8 {

    public static void main(String[] args) {

        User user = new User(10,"testName");
        Schema schema = ReflectData.get().getSchema(user.getClass());
        new GenericData.Record(schema);

        Properties props = new Properties();
        props.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG, "127.0.0.1:9092");
        props.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG,io.confluent.kafka.serializers.KafkaAvroSerializer.class);
        props.put(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG,io.confluent.kafka.serializers.KafkaAvroSerializer.class);
        props.put("schema.registry.url", "http://127.0.0.1:8081");

        KafkaProducer<String, GenericRecord> producer = new KafkaProducer<String, GenericRecord>(props);

        ReflectDatumWriter<Object> reflectDatumWriter = new ReflectDatumWriter<>(schema);
        GenericDatumReader<Object> genericRecordReader = new GenericDatumReader<>(schema);
        ByteArrayOutputStream bytes = new ByteArrayOutputStream();

        try {
            reflectDatumWriter.write(user, EncoderFactory.get().directBinaryEncoder(bytes, null));
            GenericRecord avroRecord2 = (GenericRecord) genericRecordReader.read(null, DecoderFactory.get().binaryDecoder(bytes.toByteArray(), null));
            ProducerRecord<String, GenericRecord> record = new ProducerRecord<String, GenericRecord>("avrotesttopic1", avroRecord2);
            producer.send(record);
            producer.flush();

        } catch (IOException e1) {
            e1.printStackTrace();
        }

        producer.close();
    }
}

用户类

public class User {
    int id;
    String name;

    public User(int id, String name) {
        super();
        this.id = id;
        this.name = name;
    }

    public int getId() {
        return id;
    }

    public void setId(int id) {
        this.id = id;
    }

    public String getName() {
        return name;
    }

    public void setName(String name) {
        this.name = name;
    }
}

有时候,我可能需要发送一组对象作为arraylist,比如;

ArrayList<User> users = new ArrayList<User>();

在这种情况下,我所做的是,创建一个循环来迭代列表,选择单个记录,并调用send()方法,如;

Iterator iter = users.iterator();
while (iter.hasNext()) {
   user = iter.next();
   //all other stuff here
   producer.send(record);
}

这很好用。但问题是,如果我的arraylist有50条记录,producer.send(record)将被触发50次。我想知道是否有任何其他更有效的方法来处理这个问题,例如只为所有50条记录调用一次发送方。

1 个答案:

答案 0 :(得分:0)

不清楚您的主题是否期望一条包含数组中50条记录的消息或50条单独的用户消息。

如果是个别消息,这是预期的行为。重复调用producer.send没有任何开销。这就像说System.out.print,你所做的就是将数据写入Kafka而不是控制台。

Even see this example uses a while loop

pom.xml以及src/main/avro中查找以查看Avro插件的使用位置以及LogLine类的定义。

如果一条记录中有50条结果,则需要为List<User>创建架构或定义类似

的类
class UserList {
    List<User> users;
}

另外,如前一篇文章所述,如果您只使用Avro Maven插件,可以为您生成这些类

For example, in AVDLgetting started with Avro in Java

@namespace("com.example")
protocol DomainModels {
    record User {
      int id;
      string name;
    }
}

将自动为com.example.User和getters / setter,equalsTo,toString等创建Avro架构(avsc)和Java类。

然后,您使用SpecificRecord类型而不是像GenericRecord这样的

Producer<String, User> producer = new KafkaProducer<String, User>(props);
for (User u : list) {
    producer.send(u);
}

因为生成的User类将扩展SpecificRecord

同样,如果你在Avro中有一个对象列表,那么AVDL支持Arrays

@namespace("com.example")
protocol DomainModels {
    record User {
      int id;
      string name;
    }

    record UserList {
       array<User> users;
    }
}

目前您正在做的事情的替代方法是using an AVSC format内嵌到代码中(或者更好地从文件中读取),但这基本上是ReflectDatum生成的内容。

如果您只有一个没有业务逻辑的简单Java对象,我个人认为不需要Reflect Avro构建器。如果您确实需要使用AVDL / AVSC文件中生成的类的业务逻辑,您可以或多或少地将其提取为单独的实用程序类。