Apache Kafka的分区和复制

时间:2016-01-28 04:59:55

标签: apache-kafka kafka-consumer-api kafka-producer-api

我已阅读建议网站http://kafka.apache.org/中的整个文档,但无法理解硬件要求

1)我需要澄清一下:单个主题每天收集 50GB数据需要多少分区和复制

2) 0000000000000.log 文件可以存储最多100GB的数据。是否可以减少此日志文件大小以减少I / O的使用?

2 个答案:

答案 0 :(得分:0)

如果数据在一整天内被统一摄取,这意味着您需要摄取每秒600kb的数据,这一切都取决于600kb上的消息数量(根据Jay Creps解释here你需要计算每条消息22字节开销的东西)(请记住,你从生产者那里确认消息的方式也很重要)

但是您应该能够使用1个主题和1个分区来从生产者那里获得此吞吐量。

答案 1 :(得分:-1)

1.检查此链接,它有答案选择#partitions:
   http://www.confluent.io/blog/how-to-choose-the-number-of-topicspartitions-in-a-kafka-cluster/][1]

  1. 是的,可以在kafka中更改日志文件的最大大小。您必须在每个代理上设置下面提到的属性,然后重新启动代理。

    log.segment.bytes = 1073741824

  2. 以上行将日志段大小设置为1GB。