使用Apache Storm获取流媒体Twitter数据的好方法?

时间:2018-02-28 00:43:20

标签: twitter apache-zookeeper apache-storm

我正在建立一个Twitter抓取系统。要求是抓取Twitter个人资料和Twitter流媒体。有一个项目经理将所有项目(1个项目是Twitter个人资料或Twitter Streaming的关键字)放入Kafka。然后Storm将从Kafka读取以获取项目元数据并开始运行。项目经理将定期检查所有项目并最终重新启动项目(通过将数据放入Kafka),因此每个项目都有最新数据。我有几个问题:

  • 由于我们需要保持与Twitter Streaming的连接,我们不能让Bolt在Twitter流媒体项目中运行很长时间。你能建议一个很好的方法来实现这个,比如实现一个单独的爬行过程吗?
  • 另一个问题是关于令牌。我们希望每个访问令牌仅在一台服务器上运行,以便提高稳定性并防止过早达到速率限制。当一个项目(元组)开始在Storm中处理时,它将被分配一个其主管IP的访问令牌。对此有什么好的解决方案吗?有人建议我使用Zookeeper分配访问令牌,但我不确定这是不是一个好方法以及如何实现?

0 个答案:

没有答案