想了解Robots.txt

时间:2019-09-22 14:21:01

标签: web-scraping scrapy scrapinghub

我想抓取一个网站。但是,我想先理解一下robots.txt。 我不理解的行是

User-agent: *
Disallow: /*/*/*/*/*/*/*/*/
Disallow: /*?&*&*
Disallow: /*?*&*
Disallow: /*|*

用户代理专线是否意味着可以在任何地方访问?但是然后我有了Disallow线,这是我关注的主要线。这是否意味着不访问8层深度或根本不访问?

1 个答案:

答案 0 :(得分:1)

我相信有人会简单地用robot.txt来解释regex文件。通常可以将星星解释为任何事物/所有事物

用户代理行User-agent: *并不意味着您可以删除所有内容,而只是意味着以下规则适用于所有用户代理。这是用户代理的示例

# Chrome Browser
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36
# Python requests default
python-requests/2.19.1

必须遵守相同的规则,即:

  • 例如Disallow: /*?*&*表示您不允许删除格式为

    的子域
    /some_sub_domain?param_name=param_value.
    
  • 或者行/*/*/*/*/*/*/*/*/表示不允许以下形式的子域被删除

    /a/b/c/d/e/f/g/i/
    

最后,here are insightful examples和更多有关该主题的信息。