有些事情以前,我使用small script写Text::DeDupe来删除重复的博客文章,然后才能把目光投向他们。
在阅读了有关实施所依据的Syntactic Clustering of the Web论文之后,我希望能够找到重叠的文档(例如博客的片段而不是全文,也可能是引号)。
你知道C,C ++或perl中的任何其他实现,我可以在编写自己的实现之前尝试吗?
答案 0 :(得分:2)
SpotSigs似乎恰好适合我的账单,这里有一些参考:
此模块的soruce代码托管在GitHub上: