由于某些原因,当我查看Google网站站长工具的“分析robots.txt”以查看我们的robots.txt文件阻止了哪些网址时,这并不是我所期待的。以下是我们文件开头的代码段:
Sitemap: http://[omitted]/sitemap_index.xml
User-agent: Mediapartners-Google
Disallow: /scripts
User-agent: *
Disallow: /scripts
# list of articles given by the Content group
Disallow: http://[omitted]/Living/books/book-review-not-stupid.aspx
Disallow: http://[omitted]/Living/books/book-review-running-through-roadblocks-inspirational-stories-of-twenty-courageous-athletic-warriors.aspx
Disallow: http://[omitted]/Living/sportsandrecreation/book-review-running-through-roadblocks-inspirational-stories-of-twenty-courageous-athletic-warriors.aspx
Googlebot和Mediapartners-Google都正确阻止了脚本文件夹中的任何内容。我可以看到这两个机器人正在看到正确的指令,因为Googlebot表示脚本被阻止在第7行,而Mediapartners-Google被阻止在第4行。但是我从第二个用户下的不允许的网址中输入了任何其他网址-agent指令不被阻止!
我想知道我的评论或使用绝对网址是否搞砸了......
任何见解都表示赞赏。感谢。
答案 0 :(得分:11)
忽略这些内容的原因是,robots.txt
条目的Disallow
文件中包含完全限定的网址,而specification不允许这样做。 (您应该只使用/指定相对路径或绝对路径)。请尝试以下方法:
Sitemap: /sitemap_index.xml
User-agent: Mediapartners-Google
Disallow: /scripts
User-agent: *
Disallow: /scripts
# list of articles given by the Content group
Disallow: /Living/books/book-review-not-stupid.aspx
Disallow: /Living/books/book-review-running-through-roadblocks-inspirational-stories-of-twenty-courageous-athletic-warriors.aspx
Disallow: /Living/sportsandrecreation/book-review-running-through-roadblocks-inspirational-stories-of-twenty-courageous-athletic-warriors.aspx
至于缓存,谷歌平均每24小时尝试获取一份robots.txt文件。
答案 1 :(得分:2)
这是绝对的URL。 robots.txt只应包含相对URI;根据访问robots.txt的域推断域名。
答案 2 :(得分:0)
它至少持续了一个星期,谷歌表示它是在3小时前上次下载的,所以我确定它是最近的。
答案 3 :(得分:-1)
您最近是否对robots.txt文件进行了此更改?根据我的经验,似乎谷歌缓存了很长一段时间。