Tomcat7& Struts1 - 处理众多Google Bot点击

时间:2011-05-06 15:35:32

标签: tomcat struts scalability google-crawlers

我的一台服务器上超过一半的点击量来自Google Bot,不断抓取我们的数百万页。

我们拥有这么多页面的原因是该公司是一家汽车零件商店,每个制造商零件编号组合及其适合的车辆都有唯一的URL。这不是我们可以摆脱的东西;人们一直在搜索这些条款,我们每个人都需要独特的登陆页面(因为我们所有的竞争对手都拥有它们!)。

因此,Google需要了解数百万个网页。这意味着我们每天都会从他们的爬虫中获得几次点击,这是与任何最终用户流量一样重要和必要的流量。

由于我们不断向目录中添加新产品,每周数十万,我们的唯一网址列表会越来越长,而且流量也在不断增加。

谷歌机器人不关注cookie,这意味着它每次都会获得一个新的会话,所以这会将我们的内存使用量提高到最大值。

Tomcat7和Struts的其他人如何应对如此庞大的自动化流量?

我计划尝试的方法是在每个请求结束时在页脚页面JSP tile中使会话无效(当且仅当用户代理字符串是Google抓取工具时)。这是一种节省记忆的有效方法吗?

还有哪些其他策略可以帮助我们更有效地处理机器人流量?

1 个答案:

答案 0 :(得分:0)

我不是真的在外地,但你试过看看: http://www.robotstxt.org/

我想这是谷歌应该遵守的标准。