什么是“ Bytespider”用户代理?

时间:2019-09-12 14:26:59

标签: web-crawler bots user-agent

示例用户代理字符串:

  

Mozilla / 5.0(Linux; Android 8.0; Pixel 2 Build / OPD3.170816.012)AppleWebKit / 537.36(KHTML,like Gecko)Chrome / 56.0.1511.1269 Mobile Safari / 537.36;字节蜘蛛

     

Mozilla / 5.0(iPhone; CPU iPhone OS 11_0,例如Mac OS X)AppleWebKit / 537.36(KHTML,例如Gecko)Chrome / 44.0.7997.1233移动Safari / 537.36;字节蜘蛛

2 个答案:

答案 0 :(得分:3)

我们看到的是相同的东西-相当少的一组Android / iOS用户代理,全部以Bytespider结尾,并且都忽略了我们的robots.txt文件。我们的一位平台工程师想到了在集群上进行反向DNS查找的好主意。

结果-这似乎是https://bytedance.com/

鉴于他们不尊重robots.txt文件,我认为他们是大佬。

答案 1 :(得分:1)

我也在我的网站上看到了这个。它每秒对不存在的页面发出GET请求。当 bytespider 位于用户代理字符串中并阻止防火墙中的IP地址(根据服务器日志定期添加)时,我求助于返回403 HTTP状态代码。大多数请求是从中国和新加坡ISP以及Cloudflare拥有的IP地址发出的。

样品请求:

172.69.22.98 - - [30/Sep/2019:13:16:10 +0000] "GET /CloudHD/interview-of-riyaz-14-bestfriend-secret-reveals-with-proof-yaari-hai/ZVRmSmlTQlFaRDQ.html HTTP/1.1" 403 571 "-" "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.5653.1247 Mobile Safari/537.36; Bytespider"
172.68.142.101 - - [30/Sep/2019:13:18:12 +0000] "GET /CloudHD/hot-desi-girl-big-boob-s-in-blouse-nude-selfie/WmVzSi1SOEtXTjg.html HTTP/1.1" 403 571 "-" "Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/40.0.8372.1186 Mobile Safari/537.36; Bytespider"

您可能会猜到,我的网站上没有甚至类似于这些路径。该机器人甚至从未尝试读取 /robots.txt ,因此使用这种方法阻止它毫无意义。

Semrush bot的行为几乎相同,直到我用 /robots.txt 阻止了它。因此, Bytespider 可能就是它在被阻止且不想受到不良新闻时所呈现的样子。