我的一台服务器上超过一半的点击量来自Google Bot,不断抓取我们的数百万页。
我们拥有这么多页面的原因是该公司是一家汽车零件商店,每个制造商零件编号组合及其适合的车辆都有唯一的URL。这不是我们可以摆脱的东西;人们一直在搜索这些条款,我们每个人都需要独特的登陆页面(因为我们所有的竞争对手都拥有它们!)。
因此,Google需要了解数百万个网页。这意味着我们每天都会从他们的爬虫中获得几次点击,这是与任何最终用户流量一样重要和必要的流量。
由于我们不断向目录中添加新产品,每周数十万,我们的唯一网址列表会越来越长,而且流量也在不断增加。
谷歌机器人不关注cookie,这意味着它每次都会获得一个新的会话,所以这会将我们的内存使用量提高到最大值。
Tomcat7和Struts的其他人如何应对如此庞大的自动化流量?
我计划尝试的方法是在每个请求结束时在页脚页面JSP tile中使会话无效(当且仅当用户代理字符串是Google抓取工具时)。这是一种节省记忆的有效方法吗?
还有哪些其他策略可以帮助我们更有效地处理机器人流量?