如何阻止不同的Web爬虫访问基于Java的Web应用程序?

时间:2014-11-27 07:49:48

标签: java web web-crawler

我正在开发基于struts2的Web应用程序,并希望阻止Web爬虫访问我的应用程序。

2 个答案:

答案 0 :(得分:0)

要停止向爬网程序计算机请求,您必须知道该计算机的IP地址。 然后,您可以为您的应用程序创建新过滤器。您可以在过滤器中获取对您的应用的任何请求的IP。如果IP映射与爬虫的IP地址。踢出请求你的应用程序。 希望这有帮助。

答案 1 :(得分:0)

您可以托管大多数受尊敬的抓取工具使用的特定文件robots.txt。请参阅here

  

机器人排除标准,也称为机器人排除标准   Protocol或robots.txt协议,是一种建议的惯例   合作网络爬虫和其他网络机器人关于访问所有或   网站的一部分,可以公开查看。

请注意,这不会阻止所有人,但无论如何这都很难/不可能。