应用错误收集

我正在建立一个Twitter抓取系统。要求是抓取Twitter个人资料和Twitter流媒体。有一个项目经理将所有项目（1个项目是Twitter个人资料或Twitter Streaming的关键字）放入Kafka。然后Storm将从Kafka读取以获取项目元数据并开始运行。项目经理将定期检查所有项目并最终重新启动项目（通过将数据放入Kafka），因此每个项目都有最新数据。我有几个问题：

由于我们需要保持与Twitter Streaming的连接，我们不能让Bolt在Twitter流媒体项目中运行很长时间。你能建议一个很好的方法来实现这个，比如实现一个单独的爬行过程吗？
另一个问题是关于令牌。我们希望每个访问令牌仅在一台服务器上运行，以便提高稳定性并防止过早达到速率限制。当一个项目（元组）开始在Storm中处理时，它将被分配一个其主管IP的访问令牌。对此有什么好的解决方案吗？有人建议我使用Zookeeper分配访问令牌，但我不确定这是不是一个好方法以及如何实现？

使用Apache Storm获取流媒体Twitter数据的好方法？

0 个答案: