Question

我想从某个网站获取信息，并检查是否允许我抓取它。 robots.txt文件考虑了15个不同的用户代理，然后是其他所有用户代理。我的困惑来自其他人的声明（包括我在内）。这是

User-agent: *                  
Crawl-delay: 5
Disallow: /
Disallow: /sbe_2020/pdfs/
Disallow: /sbe/sbe_2020/2020_pdfs
Disallow: /newawardsearch/
Disallow: /ExportResultServlet*

如果我正确阅读，该网站会要求未经授权的用户代理抓取它。然而，他们包括爬行延迟的事实似乎很奇怪。如果我不允许抓取它，为什么还会有爬行延迟考虑？为什么他们需要包含任何特定目录？或者，也许我已经读过＆＃34;不允许：/＆＃34;不正确？

Answer 1

是的，如果这个记录减少到这个记录就意味着相同：

User-agent: *
Disallow: /

此记录匹配的僵尸程序不允许抓取此主机上的任何内容（不需要Crawl-delay不会更改此内容）。

robots.txt禁止所有爬行延迟

1 个答案: