应用错误收集

如何处理大量的网页抓取请求

时间：2018-12-09 05:21:05

标签： java web caching architecture web-crawler

当许多客户抓取我们的网页时，我们的服务器承受着巨大的压力。有时，我们的网页是从许多不同的IP地址中抓取的，这些IP地址不属于某些著名的蜘蛛，例如Google，Bing。因此，我们基于IP地址的防御策略没有用。我们希望我们的某些网页被普通蜘蛛以适当的频率进行爬网，但是我们反对任何可能损坏服务器的人。缓存可能是一种选择。但是我们有很多关于seo的网址。例如，我们有一些带有模式“ https://www.xxxx.com/hot-goods/mobile-phone-1.html”的网址。此页面显示有关手机的产品列表。单个搜索词的搜索结果有数千页。因此，缓存的命中率可能不是很高。因此，我只是想知道是否还有其他解决方案可以减轻我们服务器的压力。

1 个答案:

答案 0 :(得分：0)

除了拥有robots.txt文件（不礼貌的爬虫可能会忽略它们）之外，您还可以提供一个sitemap.xml文件来列出所有页面。抓取工具会代替这些工具而不是使用您网站的搜索功能，这样可以减少工作量。这也是一种避免URL仅有几个参数不同的情况下对同一内容的多个请求的方法。

如果您无法避免使用它们，请简化它们的工作，以免造成麻烦。