示例用户代理字符串:
Mozilla / 5.0(Linux; Android 8.0; Pixel 2 Build / OPD3.170816.012)AppleWebKit / 537.36(KHTML,like Gecko)Chrome / 56.0.1511.1269 Mobile Safari / 537.36;字节蜘蛛
Mozilla / 5.0(iPhone; CPU iPhone OS 11_0,例如Mac OS X)AppleWebKit / 537.36(KHTML,例如Gecko)Chrome / 44.0.7997.1233移动Safari / 537.36;字节蜘蛛
答案 0 :(得分:3)
我们看到的是相同的东西-相当少的一组Android / iOS用户代理,全部以Bytespider结尾,并且都忽略了我们的robots.txt
文件。我们的一位平台工程师想到了在集群上进行反向DNS查找的好主意。
结果-这似乎是https://bytedance.com/
鉴于他们不尊重robots.txt
文件,我认为他们是大佬。
答案 1 :(得分:1)
我也在我的网站上看到了这个。它每秒对不存在的页面发出GET请求。当 bytespider 位于用户代理字符串中并阻止防火墙中的IP地址(根据服务器日志定期添加)时,我求助于返回403 HTTP状态代码。大多数请求是从中国和新加坡ISP以及Cloudflare拥有的IP地址发出的。
样品请求:
172.69.22.98 - - [30/Sep/2019:13:16:10 +0000] "GET /CloudHD/interview-of-riyaz-14-bestfriend-secret-reveals-with-proof-yaari-hai/ZVRmSmlTQlFaRDQ.html HTTP/1.1" 403 571 "-" "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.5653.1247 Mobile Safari/537.36; Bytespider"
172.68.142.101 - - [30/Sep/2019:13:18:12 +0000] "GET /CloudHD/hot-desi-girl-big-boob-s-in-blouse-nude-selfie/WmVzSi1SOEtXTjg.html HTTP/1.1" 403 571 "-" "Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/40.0.8372.1186 Mobile Safari/537.36; Bytespider"
您可能会猜到,我的网站上没有甚至类似于这些路径。该机器人甚至从未尝试读取 /robots.txt ,因此使用这种方法阻止它毫无意义。
Semrush bot的行为几乎相同,直到我用 /robots.txt 阻止了它。因此, Bytespider 可能就是它在被阻止且不想受到不良新闻时所呈现的样子。