我正在使用 robots.txt
文件来阻止抓取工具抓取特定网页。当我想阻止在 / folder / myfolder /
中的 myfolder
中抓取所有内容时,我可以将 robots.txt
放入 / folder / myfolder /robots.txt
并写:
用户代理:*
 Disallow:/

< / pre>&#xA;&#xA;或者我必须将
& #xA;&#xA;robots.txt
放在/robots.txt
中并设置:&#xA;&#xA; <谁知道呢?&#xA;用户代理:*&#xA; Disallow:/ folder / myfolder /&#xA;
答案 0 :(得分:0)
robots.txt
的工作方式不在于URL字符串,所以如果你有一个深度为3个目录的项目,就像这样:
Home/
/directory/
- file 1
- file 2
/directory2/
- file 3
加入:
User-agent: *
Disallow: /
将阻止对www.yoursite.com
/(即您的整个网站)
这样的事情:
User-agent: *
Disallow: /directory1/
将阻止抓取directory1
文件夹中存在的任何网站/目录。因此,在我们的示例中,file 1
,file 2
和directory 2
不会被抓取。
就放置它的地方而言,我总是把它放在我的主目录中,就是放置index.html
文件的地方。