使用robots.txt来阻止/?param = X.

时间:2011-01-21 17:59:07

标签: wordpress search-engine robots.txt

我创建了一个使用wordpress的网站,第一天它充满了虚拟内容,直到我上传了我的。谷歌索引页面,如:

www.url.com/?cat=1

现在这些页面不存在,并且要删除请求谷歌请我在robots.txt上阻止它们

我应该使用:

User-Agent: *
Disallow: /?cat=

User-Agent: *
Disallow: /?cat=*

我的robots.txt文件看起来像这样:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /author
Disallow: /?cat=
Sitemap: http://url.com/sitemap.xml.gz

这样看起来不错还是会导致搜索引擎出现问题?我应该使用Allow:/以及所有Disallow:?

3 个答案:

答案 0 :(得分:2)

我实际上会这样做

  

阻止访问所有网址   包括问号(?)(更多   具体来说,任何以。开头的URL   您的域名,后跟任何域名   字符串,后跟一个问号,   后跟任何字符串):

User-agent: Googlebot
Disallow: /*?

所以我真的会选择:

User-agent: Googlebot
Disallow: /*?cat=

Resourse (Under patttern matching)

答案 1 :(得分:0)

通常,您应该使用robots.txt指令来处理已删除的内容。如果搜索引擎无法对其进行爬网,则无法判断它是否已被删除,并且可能会继续索引(甚至开始编制索引)这些URL。正确的解决方案是确保您的网站为这些网址返回404(或410)HTTP结果代码,然后它们会随着时间的推移自动退出。

如果您想使用Google的紧急URL removal tools,则无论如何都必须单独提交这些网址,因此您无法通过使用robots.txt获取任何内容。

答案 2 :(得分:0)

如果搜索引擎无法对其进行抓取,则无法判断它是否已被删除,并且可能会继续索引(甚至开始编制索引)这些网址。