在哪里放robots.txt以防止爬行

时间:2016-12-02 19:24:34

标签: web-crawler robots.txt

我正在使用 robots.txt 文件来阻止抓取工具抓取特定网页。当我想阻止在 / folder / myfolder / 中的 myfolder 中抓取所有内容时,我可以将 robots.txt 放入 / folder / myfolder /robots.txt 并写:




 用户代理:*&#xA; Disallow:/&#xA;  < / pre>&#xA;&#xA; 

或者我必须将 robots.txt 放在 /robots.txt 中并设置:

& #xA;&#xA;
 用户代理:*&#xA; Disallow:/ folder / myfolder /&#xA;  
&#xA;&#xA; <谁知道呢?

&#xA;

1 个答案:

答案 0 :(得分:0)

robots.txt的工作方式不在于URL字符串,所以如果你有一个深度为3个目录的项目,就像这样:

Home/
  /directory/
    - file 1
    - file 2
    /directory2/
       - file 3

加入:

User-agent: *
Disallow: /

将阻止对www.yoursite.com /(即您的整个网站)

的任何网址进行抓取

这样的事情:

User-agent: *
Disallow: /directory1/

将阻止抓取directory1文件夹中存在的任何网站/目录。因此,在我们的示例中,file 1file 2directory 2不会被抓取。

就放置它的地方而言,我总是把它放在我的主目录中,就是放置index.html文件的地方。