我正在为机器人配置robots.txt文件,并且无法真正了解我应该阻止哪些目录。 当然,我已经在互联网上阅读了一些信息,但是到目前为止我想知道的和我发现的信息之间存在一些差距。所以,如果你能帮助我并回答一些问题会很好:
我应该在robots.txt停止机器人的操作?这不是那么简单。例如,我在根目录中有一个PHP文件INDEX(几乎包含所有内容),dir中包含引擎,名为ADMIN。在这个目录中有很多目录和文件,其中一些实际上是根文件夹中的INDEX正在使用的数据。这里的重点是,如果我将从机器人中阻止ADMIN dir,它是否仍然能正常获取INDDI中从ADMIN dir获取的所有数据?
和以前一样,有一个带有PHP脚本的INDEX PHP文件,它为下一页生成自动链接(当然有限;取决于ADMIN目录中的数据量)。这通常被机器人索引为普通链接以及此链接后面的所有数据吗?
如果我想从机器人中阻止ADMIN dir及其中的所有文件,是否足以写出来?
User-agent: *
Disallow: /ADMIN/
答案 0 :(得分:1)
Bots不关心你的内部服务器端系统(好吧,他们开始时看不到它)。
他们就像人类访问者一样访问您的网站:通过关注链接(来自您自己的网站,来自外部网站,来自您的站点地图等),有些人可能还会“猜测”网址。
所以重要的是你的网址。
如果你有一个不想让机器人访问的网址(“抓取”),请在你的robots.txt中禁止它。
此robots.txt
# hosted at http://example.com/
User-agent: *
Disallow: /ADMIN/
会禁止抓取以下网址:
http://example.com/ADMIN/
http://example.com/ADMIN/index.html
http://example.com/ADMIN/CMS/foo
http://example.com/ADMIN/images/foo.png
但仍允许以下网址抓取:
http://example.com/ADMIN
http://example.com/admin/
http://example.com/foo/ADMIN/