搜索引擎如何找到网站的内容重复

时间:2010-09-17 12:48:45

标签: search-engine duplicates

我想知道搜索引擎如何发现网站中的内容是重复的内容?

他们如何确定它可能是重复的,他们是否使用任何特定的技术或任何标记线?

请提供我的建议。

1 个答案:

答案 0 :(得分:0)

我不确定大型搜索引擎是如何做到这一点的,但我使用过的一种技术是使用n-gram内容。我们为一个爬虫做了这个,我们发现许多破碎的网站链接到同一页面,并且有无数个唯一网址。我们需要一种快速的方法来检测非常大的类似页面,以便我们可以应用更昂贵的重复内容检查。

http://en.wikipedia.org/wiki/MinHash

编辑:以下是一些其他链接,包括来自 Google

的论文

http://knol.google.com/k/simple-simhashing#

http://infolab.stanford.edu/~manku/papers/07www-duplicates.pdf