Twitter数据收集

时间:2018-03-10 18:58:57

标签: apache-spark twitter raspberry-pi apache-kafka

对于我的项目,我需要从Twitter收集数据。

我目前面临两种设计选择:

  1. 什么是最好的软件架构?我读到spark有Twitter支持,但我不熟悉Scala。另一方面,Apache Spark似乎是个不错的选择,但后来我不确定如何将数据保存到公共接收器
  2. 我有一些预算限制。我当然需要一台服务器来进行接收和处理。但是,对于数据收集,我不知道几个VM /容器是否比运行Kafka生产商的一堆Raspberry PI提供更好的性能/成本比。

2 个答案:

答案 0 :(得分:2)

看看Confluent平台,尤其是Kafka Connect [1]。

开箱即用的Twitter连接器。所有Twitter数据都将流式传输到Kafka。

[1] https://www.confluent.io/blog/using-ksql-to-analyse-query-and-transform-data-in-kafka

答案 1 :(得分:1)

同意@leshkin,Kafka Connect是最自然的选择。但是,Twitter连接器(available on github here)不需要Confluent Platform,只需要Kafka Connect,这是Apache Kafka发行版的标准部分。 https://kafka.apache.org/documentation/#connect

如果您选择,您可以在分布式模式下运行Kafka connect worker以将负载分配到多个VM /容器/盒中,这些不必与运行kafka代理的盒子相同(它们只需要一些相关的库)来自kafka和连接器和Java的libs当然)