我想知道搜索引擎如何发现网站中的内容是重复的内容?
他们如何确定它可能是重复的,他们是否使用任何特定的技术或任何标记线?
请提供我的建议。
答案 0 :(得分:0)
我不确定大型搜索引擎是如何做到这一点的,但我使用过的一种技术是使用n-gram内容。我们为一个爬虫做了这个,我们发现许多破碎的网站链接到同一页面,并且有无数个唯一网址。我们需要一种快速的方法来检测非常大的类似页面,以便我们可以应用更昂贵的重复内容检查。
http://en.wikipedia.org/wiki/MinHash
编辑:以下是一些其他链接,包括来自 Google
的论文http://knol.google.com/k/simple-simhashing#
http://infolab.stanford.edu/~manku/papers/07www-duplicates.pdf