我有一个postgres数据库,下载了推文,我使用带时区列的时间戳来存储current_timestamp。所以我想做的就是将我的推文聚集成像这个好人一样
https://gis.stackexchange.com/questions/11567/spatial-clustering-with-postgis
但是我想要进行时间聚类而不是地理聚类。我的意思是我想通过current_timestamp列将我的推文聚类成组。 例如,我有10条推文:
time | text | tweet_id 2013-07-29 11:17:08.153+03 | some text | 12345600bsa9 2013-07-29 11:19:08.153+03 | some text also | ang698f4s8s4 .. 2013-07-29 16:41:00.968+03 | hello | 6546448965445 2013-07-29 16:43:00.968+03 | world | w9087ol0930j3
因此,对于这4条推文,我想制作两个集群(通过检查小时距离集群)一个集群用于11:..小时,一个集群用于16:..小时。当然我想将它扩展到日期集群,月份集群等。 任何协助人? 提前致谢
答案 0 :(得分:0)
对数据进行排序。
定义时间阈值,例如1小时。如果与前一时间的差距大于此值,则拆分为两个聚类。
时间是一维的;这不是真正的聚类分析。可以对一维数据进行排序,并作为一系列进行处理;这更容易。