对于我的项目,我需要从Twitter收集数据。
我目前面临两种设计选择:
答案 0 :(得分:2)
看看Confluent平台,尤其是Kafka Connect [1]。
开箱即用的Twitter连接器。所有Twitter数据都将流式传输到Kafka。
[1] https://www.confluent.io/blog/using-ksql-to-analyse-query-and-transform-data-in-kafka
答案 1 :(得分:1)
同意@leshkin,Kafka Connect是最自然的选择。但是,Twitter连接器(available on github here)不需要Confluent Platform,只需要Kafka Connect,这是Apache Kafka发行版的标准部分。 https://kafka.apache.org/documentation/#connect
如果您选择,您可以在分布式模式下运行Kafka connect worker以将负载分配到多个VM /容器/盒中,这些不必与运行kafka代理的盒子相同(它们只需要一些相关的库)来自kafka和连接器和Java的libs当然)