我目前正在研究Drupal 7网站。我将以下内容添加到我的robots.txt文件中(在# Directories
部分下)
Disallow: /sites/default/files/
但是当我在Google中输入“site:www.example.com filetype:pdf”时,它仍然可以抓取到我的/sites/default/files
文件夹中。任何人都可以帮我弄清楚为什么这些仍然被抓获?
我在这里得到的唯一相关链接是:Can I add sites/default/files in robots.txt?,它没有回答我的问题。
答案 0 :(得分:0)
尝试
# Directories
Disallow: /themes/sites/default/files/
答案 1 :(得分:0)
当你有
时Disallow: /sites/default/files/
在您的robots.txt中,此行所在的记录有User-agent
行与Google的机器人匹配,然后Google不允许抓取路径以{开头}的任何网址{1}}。
但Google仍允许索引这些网址(但不包括内容)。例如,当Google找到指向被阻止页面的链接时,或者之前允许Google抓取这些网页时,这些网页的链接仍可能会显示在Google搜索结果中。
如果Google也将您网页上的内容编入索引,那就错了。
/sites/default/files/
行所在的记录不匹配。或者因为robots.txt的其他一些问题(我们需要看到它来回答这个问题)。< / LI>
答案 2 :(得分:0)
请注意,Google的缓存有效期约为2周,因此您的设置会在该时间段后生效。