使用kafka connect hdfs接收器连接器将avro消息存储到hdfs目录时的时差

时间:2018-07-31 16:29:39

标签: hadoop apache-kafka hdfs apache-kafka-connect confluent

我试图找到hdfs接收器连接器的延迟。我总体上有14 00 000条消息 我触发了curl命令,以创建刷新大小为2 00 000的hdfs接收器连接器。 第一次,它花费了将近11分钟才能完成任务。 检查日志后,我知道我还有其他连接器正在运行,因此在下一轮测试中,我删除了所有其他连接器,并删除了hdfs目录,日志目录和+ tmp目录。 我也删除了以前的连接器,并在curl命令中使用了新的连接器名称,并将刷新大小设置为相同的2 00 000消息。这次在20秒内,所有消息都在hdfs目录中。有人可以解释一下为什么会有如此奇怪的时间间隔进行处理。第一次使用同一主题大约需要11分钟,而在下一个测试中,它需要20秒即可处理

连接器属性: {“名称”:“ RetestPerf_2”,“配置”:{“ connector.class”:“ io.confluent.connect.hdfs.HdfsSinkConnector”,“ flush.size”:“ 200000”,“ tasks.max”:“ 15 “,” topics“:” RetestPerf“,” hdfs.url“:” hdfs://主机名:8020 / topics“,”名称“:” RetestPerf_2“},”任务“:[{” connector“:” RetestPerf_2“ ,“ task”:0},{“ connector”:“ RetestPerf_2”,“ task”:1},{“ connector”:“ RetestPerf_2”,“ task”:2},{“ connector”:“ RetestPerf_2”,“任务”:3},{“连接器”:“ RetestPerf_2”,“任务”:4},{“连接器”:“ RetestPerf_2”,“任务”:5},{“连接器”:“ RetestPerf_2”,“任务” :6},{“ connector”:“ RetestPerf_2”,“ task”:7},{“ connector”:“ RetestPerf_2”,“ task”:8},{“ connector”:“ RetestPerf_2”,“ task”:9 },{“ connector”:“ RetestPerf_2”,“ task”:10},{“ connector”:“ RetestPerf_2”,“ task”:11},{“ connector”:“ RetestPerf_2”,“ task”:12}, {“ connector”:“ RetestPerf_2”,“ task”:13},{“ connector”:“ RetestPerf_2”,“ task”:14}]}} [

0 个答案:

没有答案