Question

我正在使用 robots.txt 文件来阻止抓取工具抓取特定网页。当我想阻止在 / folder / myfolder / 中的 myfolder 中抓取所有内容时，我可以将 robots.txt 放入 / folder / myfolder /robots.txt 并写：

＆＃xA;＆＃xA;

 用户代理：*＆＃xA; Disallow：/＆＃xA;  < / pre>＆＃xA;＆＃xA; 或者我必须将 robots.txt 放在 /robots.txt 中并设置：
＆ #xA;＆＃xA;  用户代理：*＆＃xA; Disallow：/ folder / myfolder /＆＃xA;  
＆＃xA;＆＃xA; <谁知道呢？＆＃xA;

Answer 1

robots.txt的工作方式不在于URL字符串，所以如果你有一个深度为3个目录的项目，就像这样：

Home/
  /directory/
    - file 1
    - file 2
    /directory2/
       - file 3

加入：

User-agent: *
Disallow: /

将阻止对www.yoursite.com /（即您的整个网站）

的任何网址进行抓取

这样的事情：

User-agent: *
Disallow: /directory1/

将阻止抓取directory1文件夹中存在的任何网站/目录。因此，在我们的示例中，file 1，file 2和directory 2不会被抓取。

就放置它的地方而言，我总是把它放在我的主目录中，就是放置index.html文件的地方。

在哪里放robots.txt以防止爬行

1 个答案: