标签: apache-kafka kafka-consumer-api kafka-producer-api spring-kafka
我正在探索设计Google规模的爬虫的方法,因此正在探索使用Kafka的解决方案。
最近,我了解到Kafka分区的数量限制为数千个,并且不会扩展到该数量。并且众所周知,每个分区(有或没有使用者组)只有一个线程。
我的问题是如何使用成千上万的并行工作人员来构建高性能的搜寻器。
是否可以纠正/提出与Kafka兼容的完美设计?