我应该如何处理页面中的规范网址作为Crawler?
例如,如果我在head标签中有这个:
<link rel="canonical" href="http://example.com/wordpress/">
我应该跳过基于此网址的每个网址并跳过它们吗?感谢。
答案 0 :(得分:0)
规范标记在将文档索引到搜索引擎中时非常有用,可以减少与标记共享相同值的重复项或近似变体的数量。这就是StormCrawler使用它的方式。
您确实可以跳过具有不同规范值的索引URL,但由于这是您在获取内容后发现的内容,因此无论如何使用规范值作为id对其进行索引都不会产生太大影响。
StormCrawler中存在一个未解决的问题,即利用标记for filtering outlinks。这样做的好处是,可以根据规范标签推断出的规则重写的URL不会被提取=&gt;更有效的抓取。