Question

我使用荷兰的紧急推文进行项目。有时会有一个以上的关于一个事件的推文，时间戳和推文本身的字符串略有不同。我想删除那些＆＃34;重复＆＃34;。

因此，在我的数据库中，如果行具有相似但与

完全相同的行

    "2014-01-11 10:01:17";"HV 1 METINGEN (+Inc,net: 1+) (KLEIN OGS) (slachtoffers: ) , Van Ostadestraat 332 AMSTERDAM [ ]  "
    "2014-01-11 09:59:06";"HV 1 METINGEN (+Inc,net: 1+) (KLEIN OGS) (slachtoffers:1) , Van Ostadestraat 332 AMSTERDAM ]  "

问题是我必须考虑时间方面，而不能只依赖字符串。文本可以多次出现。

理想的方法是在第一条推文后10分钟内删除时间缓冲区内的所有行，此时文本相似度超过0.75的阈值。

对于字符串比较我试过相似性（文字，文字）看 http://www.postgresql.org/docs/9.1/static/pgtrgm.html

我使用的时间聚合：（extract（time FROM timestamp_column）:: int / 10）除了常规的YYYY-MM-DD-HH24时间聚合

感谢任何帮助。

具有附加时间方面的字符串值略有不同的重复

0 个答案: