我使用荷兰的紧急推文进行项目。有时会有一个以上的关于一个事件的推文,时间戳和推文本身的字符串略有不同。我想删除那些"重复"。
因此,在我的数据库中,如果行具有相似但与
完全相同的行 "2014-01-11 10:01:17";"HV 1 METINGEN (+Inc,net: 1+) (KLEIN OGS) (slachtoffers: ) , Van Ostadestraat 332 AMSTERDAM [ ] "
"2014-01-11 09:59:06";"HV 1 METINGEN (+Inc,net: 1+) (KLEIN OGS) (slachtoffers:1) , Van Ostadestraat 332 AMSTERDAM ] "
问题是我必须考虑时间方面,而不能只依赖字符串。文本可以多次出现。
理想的方法是在第一条推文后10分钟内删除时间缓冲区内的所有行,此时文本相似度超过0.75的阈值。
对于字符串比较我试过相似性(文字,文字)看 http://www.postgresql.org/docs/9.1/static/pgtrgm.html
我使用的时间聚合: (extract(time FROM timestamp_column):: int / 10) 除了常规的YYYY-MM-DD-HH24时间聚合
感谢任何帮助。