我正在开发基于struts2的Web应用程序,并希望阻止Web爬虫访问我的应用程序。
答案 0 :(得分:0)
要停止向爬网程序计算机请求,您必须知道该计算机的IP地址。 然后,您可以为您的应用程序创建新过滤器。您可以在过滤器中获取对您的应用的任何请求的IP。如果IP映射与爬虫的IP地址。踢出请求你的应用程序。 希望这有帮助。
答案 1 :(得分:0)
您可以托管大多数受尊敬的抓取工具使用的特定文件robots.txt
。请参阅here。
机器人排除标准,也称为机器人排除标准 Protocol或robots.txt协议,是一种建议的惯例 合作网络爬虫和其他网络机器人关于访问所有或 网站的一部分,可以公开查看。
请注意,这不会阻止所有人,但无论如何这都很难/不可能。