关于机器人和内容阻止的几个问题

时间:2015-03-13 11:37:48

标签: php seo bots robots.txt

我正在为机器人配置robots.txt文件,并且无法真正了解我应该阻止哪些目录。 当然,我已经在互联网上阅读了一些信息,但是到目前为止我想知道的和我发现的信息之间存在一些差距。所以,如果你能帮助我并回答一些问题会很好:

 
  • 我应该在robots.txt停止机器人的操作?这不是那么简单。例如,我在根目录中有一个PHP文件INDEX(几乎包含所有内容),dir中包含引擎,名为ADMIN。在这个目录中有很多目录和文件,其中一些实际上是根文件夹中的INDEX正在使用的数据。这里的重点是,如果我将从机器人中阻止ADMIN dir,它是否仍然能正常获取INDDI中从ADMIN dir获取的所有数据?

  • 和以前一样,有一个带有PHP脚本的INDEX PHP文件,它为下一页生成自动链接(当然有限;取决于ADMIN目录中的数据量)。这通常被机器人索引为普通链接以及此链接后面的所有数据吗?

  • 如果我想从机器人中阻止ADMIN dir及其中的所有文件,是否足以写出来?

    User-agent: *
    Disallow: /ADMIN/
    

1 个答案:

答案 0 :(得分:1)

Bots不关心你的内部服务器端系统(好吧,他们开始时看不到它)。

他们就像人类访问者一样访问您的网站:通过关注链接(来自您自己的网站,来自外部网站,来自您的站点地图等),有些人可能还会“猜测”网址。

所以重要的是你的网址。

如果你有一个不想让机器人访问的网址(“抓取”),请在你的robots.txt中禁止它。

此robots.txt

# hosted at http://example.com/

User-agent: *
Disallow: /ADMIN/

会禁止抓取以下网址:

  • http://example.com/ADMIN/
  • http://example.com/ADMIN/index.html
  • http://example.com/ADMIN/CMS/foo
  • http://example.com/ADMIN/images/foo.png

但仍允许以下网址抓取:

  • http://example.com/ADMIN
  • http://example.com/admin/
  • http://example.com/foo/ADMIN/