如何处理大量的网页抓取请求

时间:2018-12-09 05:21:05

标签: java web caching architecture web-crawler

当许多客户抓取我们的网页时,我们的服务器承受着巨大的压力。有时,我们的网页是从许多不同的IP地址中抓取的,这些IP地址不属于某些著名的蜘蛛,例如Google,Bing。因此,我们基于IP地址的防御策略没有用。我们希望我们的某些网页被普通蜘蛛以适当的频率进行爬网,但是我们反对任何可能损坏服务器的人。缓存可能是一种选择。但是我们有很多关于seo的网址。例如,我们有一些带有模式“ https://www.xxxx.com/hot-goods/mobile-phone-1.html”的网址。此页面显示有关手机的产品列表。单个搜索词的搜索结果有数千页。因此,缓存的命中率可能不是很高。因此,我只是想知道是否还有其他解决方案可以减轻我们服务器的压力。

1 个答案:

答案 0 :(得分:0)

除了拥有robots.txt文件(不礼貌的爬虫可能会忽略它们)之外,您还可以提供一个sitemap.xml文件来列出所有页面。抓取工具会代替这些工具而不是使用您网站的搜索功能,这样可以减少工作量。这也是一种避免URL仅有几个参数不同的情况下对同一内容的多个请求的方法。

如果您无法避免使用它们,请简化它们的工作,以免造成麻烦。