具有附加时间方面的字符串值略有不同的重复

时间:2014-01-11 13:34:17

标签: twitter duplicates postgresql-9.2 similarity

我使用荷兰的紧急推文进行项目。有时会有一个以上的关于一个事件的推文,时间戳和推文本身的字符串略有不同。我想删除那些"重复"。

因此,在我的数据库中,如果行具有相似但与

完全相同的行
    "2014-01-11 10:01:17";"HV 1 METINGEN (+Inc,net: 1+) (KLEIN OGS) (slachtoffers: ) , Van Ostadestraat 332 AMSTERDAM [ ]  "
    "2014-01-11 09:59:06";"HV 1 METINGEN (+Inc,net: 1+) (KLEIN OGS) (slachtoffers:1) , Van Ostadestraat 332 AMSTERDAM ]  "

问题是我必须考虑时间方面,而不能只依赖字符串。文本可以多次出现。

理想的方法是在第一条推文后10分钟内删除时间缓冲区内的所有行,此时文本相似度超过0.75的阈值。

对于字符串比较我试过相似性(文字,文字)看 http://www.postgresql.org/docs/9.1/static/pgtrgm.html

我使用的时间聚合: (extract(time FROM timestamp_column):: int / 10) 除了常规的YYYY-MM-DD-HH24时间聚合

感谢任何帮助。

0 个答案:

没有答案