使用来自twitter数据的时区对时间戳进行聚类

时间:2013-07-31 08:21:33

标签: timestamp cluster-analysis

我有一个postgres数据库,下载了推文,我使用带时区列的时间戳来存储current_timestamp。所以我想做的就是将我的推文聚集成像这个好人一样

  

https://gis.stackexchange.com/questions/11567/spatial-clustering-with-postgis

但是我想要进行时间聚类而不是地理聚类。我的意思是我想通过current_timestamp列将我的推文聚类成组。 例如,我有10条推文:

 time                                   |       text                   |    tweet_id
2013-07-29 11:17:08.153+03              | some text                    | 12345600bsa9
2013-07-29 11:19:08.153+03              | some text also               | ang698f4s8s4
..
2013-07-29 16:41:00.968+03              | hello                        | 6546448965445
2013-07-29 16:43:00.968+03              | world                        | w9087ol0930j3

因此,对于这4条推文,我想制作两个集群(通过检查小时距离集群)一个集群用于11:..小时,一个集群用于16:..小时。当然我想将它扩展到日期集群,月份集群等。 任何协助人? 提前致谢

1 个答案:

答案 0 :(得分:0)

对数据进行排序。

定义时间阈值,例如1小时。如果与前一时间的差距大于此值,则拆分为两个聚类。

时间是一维的;这不是真正的聚类分析。可以对一维数据进行排序,并作为一系列进行处理;这更容易。