应用错误收集

如何检测具有一定模糊性的重复文本

时间：2008-10-24 15:46:15

标签： text diff duplicates duplicate-data duplication

有些事情以前，我使用small script写Text::DeDupe来删除重复的博客文章，然后才能把目光投向他们。

在阅读了有关实施所依据的Syntactic Clustering of the Web论文之后，我希望能够找到重叠的文档（例如博客的片段而不是全文，也可能是引号）。

你知道C，C ++或perl中的任何其他实现，我可以在编写自己的实现之前尝试吗？

1 个答案:

答案 0 :(得分：2)

SpotSigs似乎恰好适合我的账单，这里有一些参考：

此模块的soruce代码托管在GitHub上：

http://github.com/jzawodn/perl-text-spotsig