如何检测具有一定模糊性的重复文本

时间:2008-10-24 15:46:15

标签: text diff duplicates duplicate-data duplication

有些事情以前,我使用small scriptText::DeDupe来删除重复的博客文章,然后才能把目光投向他们。

在阅读了有关实施所依据的Syntactic Clustering of the Web论文之后,我希望能够找到重叠的文档(例如博客的片段而不是全文,也可能是引号)。

你知道C,C ++或perl中的任何其他实现,我可以在编写自己的实现之前尝试吗?

1 个答案:

答案 0 :(得分:2)