我为某个网页编写了一个抓取工具。这个网页有一个robots.txt,如下所示:
User-Agent: *
Crawl-delay: 30
所以它只允许每30秒爬一次网站(对吗?)。但子页面怎么样?例如。我可以在没有延迟30秒的情况下抓取以下网站,因为它们是不同的子页面:
www.mysite.com
www.mysite.com/category_1
www.mysite.com/category_2
我是否需要在这些请求之间休息30秒?
谢谢你, 托马斯。
答案 0 :(得分:2)
爬网延迟告诉机器人有关连续请求到同一服务器之间等待的秒数。