假设我有两个请求,它们之间的最短持续时间是多少,这样一个大型网站就不会将我视为机器人?
在这里我想提出一个请求,并请求,因为我下载的页面150毫秒到250毫秒左右得到解决。在我的第一个请求下载后200毫秒,以下请求发出。总共花费约400毫秒的时间,这会被视为机器人吗?
答案 0 :(得分:1)
通常,您有一个http-header(称为User-Agent),(诚实的)机器人应在其中告诉服务器“嘿,我是机器人”,当然有些爬虫和机器人不会将自己标识为机器人,但那些是我们想要抓住的。使用许多不同的方法。到底哪些方法是在你的目标使用,只负责该目标的系统管理员可以回答。
我会诚实地将自己标识为机器人,但我会检查robots.txt文件中的抓取速度限制,并遵守该限制。
诚实的机器人程序通常不是问题,不诚实的机器人程序是