应用错误收集

如何阻止不同的Web爬虫访问基于Java的Web应用程序？

时间：2014-11-27 07:49:48

标签： java web web-crawler

我正在开发基于struts2的Web应用程序，并希望阻止Web爬虫访问我的应用程序。

2 个答案:

答案 0 :(得分：0)

要停止向爬网程序计算机请求，您必须知道该计算机的IP地址。然后，您可以为您的应用程序创建新过滤器。您可以在过滤器中获取对您的应用的任何请求的IP。如果IP映射与爬虫的IP地址。踢出请求你的应用程序。希望这有帮助。

答案 1 :(得分：0)

您可以托管大多数受尊敬的抓取工具使用的特定文件robots.txt。请参阅here。

机器人排除标准，也称为机器人排除标准 Protocol或robots.txt协议，是一种建议的惯例合作网络爬虫和其他网络机器人关于访问所有或网站的一部分，可以公开查看。

请注意，这不会阻止所有人，但无论如何这都很难/不可能。