robots.txt文件是" disallow /"停止对我网站的所有抓取?

时间:2014-05-15 16:32:23

标签: webserver robots.txt

我知道以下内容会阻止所有机器人抓取我的网站

User-agent: *
Disallow: /

但是这样的事情呢?

User-agent: *
Crawl-delay: 10
# Directories
Disallow: /includes/
Disallow: /misc/
Disallow: /modules/
Disallow: /profiles/
Disallow: /scripts/
Disallow: /themes/
# Files
Disallow: /CHANGELOG.txt
Disallow: /cron.php
Disallow: /INSTALL.mysql.txt
Disallow: /INSTALL.pgsql.txt
Disallow: /INSTALL.sqlite.txt
Disallow: /install.php
Disallow: /INSTALL.txt
Disallow: /LICENSE.txt
Disallow: /MAINTAINERS.txt
Disallow: /update.php
Disallow: /UPGRADE.txt
Disallow: /xmlrpc.php
# Paths (clean URLs)
Disallow: /admin/
Disallow: /comment/reply/
Disallow: /filter/tips/
Disallow: /node/add/
Disallow: /search/
Disallow: /user/register/
Disallow: /user/password/
Disallow: /user/login/
Disallow: /user/logout/
# Paths (no clean URLs)
Disallow: /?q=admin/
Disallow: /?q=comment/reply/
Disallow: /?q=filter/tips/
Disallow: /?q=node/add/
Disallow: /?q=search/
Disallow: /?q=user/password/
Disallow: /?q=user/register/
Disallow: /?q=user/login/
Disallow: /?q=user/logout/

Disallow: /

我不想评论整个文件,逻辑告诉我最终的Disallow:/ line应该覆盖之前的所有规则,但是我们从客户端收到一份报告,表明提交了一个表单。这个robots.txt文件所属的网站,让我们相信它已编入索引。我有什么东西在这里失踪吗?

谢谢你!

1 个答案:

答案 0 :(得分:0)

正如评论中所提到的,robots.txt文件只不过是一个请求。 礼貌的网络爬虫会尊重它,潜在的邪恶的人可以忽略它或将它用作藏宝图 你提出的建议将起作用(在robots.txt工作的范围内)。

以下是“规则”:

  • 您的网络服务器需要可读(嗯,嗯?)
  • 它必须位于您的网络服务器的根级别(例如 (http://www.example.com/robots.txt)。
  • 如果你有多个网站,每个网站都需要一个/robots.txt网址(他们 如果合适,可以共享实际文件)。注意 http://www.example.comhttps://www.example.com是两个 http://www.example.com用于这些目的的不同网站 和http://example.com,即使它们提供相同的内容。
  • 找到的第一场比赛适用(如果您这样做,这一点非常重要 使用非标准(但广泛实施的)Allow扩展名。)

您可以在此处找到一些其他信息:https://en.wikipedia.org/wiki/Robots_exclusion_standard