Question

我目前正在研究Drupal 7网站。我将以下内容添加到我的robots.txt文件中（在# Directories部分下）

Disallow: /sites/default/files/

但是当我在Google中输入“site：www.example.com filetype：pdf”时，它仍然可以抓取到我的/sites/default/files文件夹中。任何人都可以帮我弄清楚为什么这些仍然被抓获？

我在这里得到的唯一相关链接是：Can I add sites/default/files in robots.txt?，它没有回答我的问题。

Answer 1

尝试

# Directories
Disallow: /themes/sites/default/files/

Answer 2

当你有

时

Disallow: /sites/default/files/

在您的robots.txt中

，此行所在的记录有User-agent行与Google的机器人匹配，然后Google不允许抓取路径以{开头}的任何网址{1}}。

但Google仍允许索引这些网址（但不包括内容）。例如，当Google找到指向被阻止页面的链接时，或者之前允许Google抓取这些网页时，这些网页的链接仍可能会显示在Google搜索结果中。

如果Google也将您网页上的内容编入索引，那就错了。

可能是因为您最近才阻止了robots.txt中的网址。如果是这种情况，您只需等待一段时间，直到Google再次抓住您的robots.txt。
可能是Google与此/sites/default/files/行所在的记录不匹配。或者因为robots.txt的其他一些问题（我们需要看到它来回答这个问题）。< / LI>

Answer 3

请注意，Google的缓存有效期约为2周，因此您的设置会在该时间段后生效。