适用于sclabale twitter / facebook / myspace活动数据库的架构/语言

时间:2010-08-11 14:44:06

标签: database http architecture rest

快速介绍

我已经建立了一个系统,每隔20分钟从社交网络apis请求1000个不同科目的统计数据。 所以我为每个主题打电话给每个社交网络。这意味着即时为每20分钟的插槽发出1000个http请求。然后在单独的任务中处理结果。

当前解决方案

我正在从主管定期调用命令行运行php。然后将数据保存到Mysql。

很多问题!

由于php无法多线程或利用异步http请求,api脚本需要花费很长时间才能从一个连接一次从社交网络获取数据。

由于我的'主题'的数据模型变得更复杂,我可能需要开始连接表,还需要有多个服务器。

未来

要添加的主题越来越多,分析工具有很多数字运算。

我真的很想知道其他人正在使用这种域名。例如。平台/语言/库/数据库/守护进程工具等

约翰

1 个答案:

答案 0 :(得分:0)

  

我已经建立了一个系统,每隔20分钟从社交网络apis请求1000个不同科目的统计数据。所以我为每个主题打电话给每个社交网络。这意味着即时为每20分钟的插槽发出1000个http请求。然后在单独的任务中处理结果。

首先出现的问题是 - 您要根据主题进行轮询,无论该主题是否已在该时间间隔内更新。自上次调查以来,您可能会发现轮询新文章的效率明显更高,并过滤掉您感兴趣的内容。

  

由于php无法多线程

为什么认为你需要多线程来运行php脚本的多个实例?定义一个公共数据存储区,其中包含需要完成哪些工作的详细信息,以及通过优先数量的实例对请求进行分区的方法,并编写一个脚本,启动此数量的实例,将分区标识符传递给每个实例。

  

或利用异步http请求

cURL扩展可以。

  

我可能需要开始加入表格

!我的天啊 !你必须是某种计算机天才!我可以买贵公司的股票吗?

说真的 - “加入表格”与你所描述的问题的任何解决方案毫无关系。 “多个服务器”无法解决您的数据复杂性问题(但有助于解决实际性能问题)。