我正在开发一种搜索引擎,就像工具一样,可以浏览网站,收集数据,对其编制索引,并使其可以在我的应用程序中进行搜索。
我将使用Net::HTTP
或Hpricot
抓取网站
我正在抓取的网站是论坛,它们为每个帖子保留视图和回复计数。每当我爬过视图时,计数就会增加。
有什么方法可以避免这种情况吗?搜索引擎如何在不增加查看次数的情况下进行爬网?
答案 0 :(得分:1)
这取决于远程站点如何增加其计数器。如果他们考虑User-Agent
标题,您可以利用它。如果他们的计数器通过javascript(例如Google Analytics)递增,则Net::HTTP
不应触发更改。