我知道我可以禁止机器人使用robots.txt,但很少有搜索引擎不遵守此规定。因此,我有一个API,我的用户使用我的API请求参数发送事务信息以插入/更新/删除等。但是当我查看我的日志时,我的.php页面已经发布了大量的点击,因此我谷歌在我的php API页面中使用它并且什么也没找到。
因此我登陆SO以获得专家的帮助,有什么方法可以阻止/禁止SE机器人访问我的基本API URL吗?
答案 0 :(得分:1)
我知道处理忽略robots.txt的机器人的主要方法是:
但是,您应该问问自己,它们是否会对您的网站产生任何影响。如果他们没有通过请求(这可能是DDoS攻击)向您发送垃圾邮件,那么您可以安全地忽略它们,并在需要分析实际流量时将其从日志中过滤掉。
如果您正在运行人们使用的服务而您不希望它对垃圾邮件敞开大门,那么这里有一些关于如何限制使用的选项:
没有完美的解决方案,每个选项都涉及权衡。如果您担心DDoS,那么您可以先查看服务器的功能,例如,这里介绍NGINX如何控制流量:https://www.nginx.com/blog/rate-limiting-nginx/
简而言之,攻击您网站的任何 IP都可能是僵尸程序,因此您应该通过施加限制和分析行为进行辩护,因为无法确定谁是恶意访问者以及谁不是直到他们开始使用你的服务。