Question

我应该如何处理页面中的规范网址作为Crawler？

例如，如果我在head标签中有这个：

<link rel="canonical" href="http://example.com/wordpress/">

我应该跳过基于此网址的每个网址并跳过它们吗？感谢。

Answer 1

规范标记在将文档索引到搜索引擎中时非常有用，可以减少与标记共享相同值的重复项或近似变体的数量。这就是StormCrawler使用它的方式。

您确实可以跳过具有不同规范值的索引URL，但由于这是您在获取内容后发现的内容，因此无论如何使用规范值作为id对其进行索引都不会产生太大影响。

StormCrawler中存在一个未解决的问题，即利用标记for filtering outlinks。这样做的好处是，可以根据规范标签推断出的规则重写的URL不会被提取=＆gt;更有效的抓取。