Question

我知道以下内容会阻止所有机器人抓取我的网站

User-agent: *
Disallow: /

但是这样的事情呢？

User-agent: *
Crawl-delay: 10
# Directories
Disallow: /includes/
Disallow: /misc/
Disallow: /modules/
Disallow: /profiles/
Disallow: /scripts/
Disallow: /themes/
# Files
Disallow: /CHANGELOG.txt
Disallow: /cron.php
Disallow: /INSTALL.mysql.txt
Disallow: /INSTALL.pgsql.txt
Disallow: /INSTALL.sqlite.txt
Disallow: /install.php
Disallow: /INSTALL.txt
Disallow: /LICENSE.txt
Disallow: /MAINTAINERS.txt
Disallow: /update.php
Disallow: /UPGRADE.txt
Disallow: /xmlrpc.php
# Paths (clean URLs)
Disallow: /admin/
Disallow: /comment/reply/
Disallow: /filter/tips/
Disallow: /node/add/
Disallow: /search/
Disallow: /user/register/
Disallow: /user/password/
Disallow: /user/login/
Disallow: /user/logout/
# Paths (no clean URLs)
Disallow: /?q=admin/
Disallow: /?q=comment/reply/
Disallow: /?q=filter/tips/
Disallow: /?q=node/add/
Disallow: /?q=search/
Disallow: /?q=user/password/
Disallow: /?q=user/register/
Disallow: /?q=user/login/
Disallow: /?q=user/logout/

Disallow: /

我不想评论整个文件，逻辑告诉我最终的Disallow：/ line应该覆盖之前的所有规则，但是我们从客户端收到一份报告，表明提交了一个表单。这个robots.txt文件所属的网站，让我们相信它已编入索引。我有什么东西在这里失踪吗？

谢谢你！

Answer 1

正如评论中所提到的，robots.txt文件只不过是一个请求。礼貌的网络爬虫会尊重它，潜在的邪恶的人可以忽略它或将它用作藏宝图你提出的建议将起作用（在robots.txt工作的范围内）。

以下是“规则”：

您的网络服务器需要可读（嗯，嗯？）
它必须位于您的网络服务器的根级别（例如（http://www.example.com/robots.txt）。
如果你有多个网站，每个网站都需要一个/robots.txt网址（他们如果合适，可以共享实际文件）。注意 http://www.example.com和https://www.example.com是两个 http://www.example.com用于这些目的的不同网站和http://example.com，即使它们提供相同的内容。
找到的第一场比赛适用（如果您这样做，这一点非常重要使用非标准（但广泛实施的）Allow扩展名。）

您可以在此处找到一些其他信息：https://en.wikipedia.org/wiki/Robots_exclusion_standard

robots.txt文件是＆＃34; disallow /＆＃34;停止对我网站的所有抓取？

1 个答案: