如何从短信中计算趋势

时间:2012-01-25 01:36:09

标签: php

我正在使用匈牙利的Twitter客户端,我想实现一个趋势系统。所以我有一个包含文本和日期(unix时间戳)的数据库,代表了推文的创建日期。

那么我怎么能创建一些PHP脚本给我10个“趋势主题”呢?我甚至不知道如何开始解决这个问题。

1 个答案:

答案 0 :(得分:1)

您需要设计一种能够告诉您趋势的算法。

要做到这一点,首先需要定义趋势是什么,例如在Twitter Feed中使用的术语或人名。或者甚至考虑是否有一些推文被重新发布,以及在多长时间内/在哪个时期。

因此,您需要分析每个Feed,提取您正在寻找的信息,然后将其与时间信息结合起来,以说出趋势,例如与其他时期相比,在一段时间内或多或少地使用。

可以使用正则表达式解析Twitter消息。

然后可以将关键字保存到数据库中,该数据库就像索引一样。

然后,您可以使用SQL等数据语言从规范化数据中获取有关趋势的信息。

您通常从简单的脚本开始,以测试您的算法。

由于在你的问题中未定义你正在寻找什么样的趋势,这个问题只能得到普遍回答。不过有些提示:

  • 只获取一次推文,缓存它们(看起来你已经有了这个)。
  • 您拥有的数据越多,您就可以越好地测试算法/系统,因此首先获取数据。
  • 定义可以应用于缓存数据的进程,例如解析,规范化和使用哪个数据库后端。
  • 允许您的系统具有多个趋势算法,以便您可以相互测试它们。
  • 在您的语言/域中找出关于停用词(搜索引擎是需要过滤不重要文本信息的另一个相关主题)。