我该如何处理爬虫中的规范网址

时间:2017-01-20 09:32:02

标签: web-crawler canonical-link

我应该如何处理页面中的规范网址作为Crawler?

例如,如果我在head标签中有这个:

<link rel="canonical" href="http://example.com/wordpress/">

我应该跳过基于此网址的每个网址并跳过它们吗?感谢。

1 个答案:

答案 0 :(得分:0)

规范标记在将文档索引到搜索引擎中时非常有用,可以减少与标记共享相同值的重复项或近似变体的数量。这就是StormCrawler使用它的方式。

您确实可以跳过具有不同规范值的索引URL,但由于这是您在获取内容后发现的内容,因此无论如何使用规范值作为id对其进行索引都不会产生太大影响。

StormCrawler中存在一个未解决的问题,即利用标记for filtering outlinks。这样做的好处是,可以根据规范标签推断出的规则重写的URL不会被提取=&gt;更有效的抓取。