使用PHP收集和处理数据(Twitter Streaming API)

时间:2012-04-11 16:09:14

标签: php sockets twitter twitter-streaming-api phirehose

阅读完所有的twitter流媒体API和Phirehose PHP文档后,我发现了一些我尚未做的事情,分别收集和处理数据。

它背后的逻辑,如果我理解正确,是为了防止在处理阶段的日志堵塞,这将支持收集过程。我以前见过的例子,但他们基本上在收集后立即写入MySQL数据库,这似乎与推荐你做的事情不符。

我想要一些建议/帮助,是什么是处理这个问题的最佳方法。似乎人们建议将所有数据直接写入文本文件,然后使用单独的函数解析/处理它。但是用这种方法,我认为它可能是一个记忆猪。

这是捕获,它将作为守护进程/后台进程运行。那么有没有人有解决这样的问题的经验,或者更具体地说,是推特的phirehose库?谢谢!

一些说明: *连接将通过套接字,所以我的猜测是文件将不断附加?不确定是否有人对此有任何反馈

1 个答案:

答案 0 :(得分:1)

phirehose库附带了一个如何执行此操作的示例。参见:

这使用平面文件,它具有很高的可扩展性和快速性,即:您的普通硬盘可以按40MB / s +顺序写入并线性扩展(即:与数据库不同,它不会因为变大而减速)

您不需要任何数据库功能来使用流(即:您只需要下一条推文,不涉及“查询”)。

如果您经常轮换文件,您将获得接近实时的性能(如果需要)。