我需要获得模式匹配规则才能获得此结果。
allow /dir/path_name.htm/something
disallow /dir/path_name/something
and disallow /dir/path_name.htm
实际上,这两个不允许一直是积累的错别字。这些页面永远不存在。如何阻止谷歌再次抓取他们?
我在这里测试过:http://www.frobee.com/robots-txt-check/以下内容,但似乎没有任何效果。
Allow: /dir/*.htm/?*
Disallow: /dir/*
出了什么问题?谢谢。
答案 0 :(得分:1)
根据规范:
http://www.robotstxt.org/norobots-rfc.txt
不允许使用通配符(*
)。路径只是完全匹配。我的猜测是你正在使用某种形式的重写,并且你不希望出现具有相同内容的多个溃疡。在这种情况下,这可能是一个更好的解决方案:
http://googlewebmastercentral.blogspot.de/2009/02/specify-your-canonical.html