在不增加页面浏览量的情况下抓取网页

时间:2011-03-23 13:57:26

标签: ruby-on-rails web-crawler

我正在开发一种搜索引擎,就像工具一样,可以浏览网站,收集数据,对其编制索引,并使其可以在我的应用程序中进行搜索。
我将使用Net::HTTPHpricot抓取网站 我正在抓取的网站是论坛,它们为每个帖子保留视图和回复计数。每当我爬过视图时,计数就会增加。

有什么方法可以避免这种情况吗?搜索引擎如何在不增加查看次数的情况下进行爬网?

1 个答案:

答案 0 :(得分:1)

这取决于远程站点如何增加其计数器。如果他们考虑User-Agent标题,您可以利用它。如果他们的计数器通过javascript(例如Google Analytics)递增,则Net::HTTP不应触发更改。