robots.txt也是针对子页面的爬行延迟吗?

时间:2013-11-07 11:21:50

标签: python web-crawler robots.txt

我为某个网页编写了一个抓取工具。这个网页有一个robots.txt,如下所示:

User-Agent: * 
Crawl-delay: 30

所以它只允许每30秒爬一次网站(对吗?)。但子页面怎么样?例如。我可以在没有延迟30秒的情况下抓取以下网站,因为它们是不同的子页面:

www.mysite.com
www.mysite.com/category_1 
www.mysite.com/category_2 

我是否需要在这些请求之间休息30秒?

谢谢你,    托马斯。

1 个答案:

答案 0 :(得分:2)

爬网延迟告诉机器人有关连续请求到同一服务器之间等待的秒数。