Question

我创建了一个使用wordpress的网站，第一天它充满了虚拟内容，直到我上传了我的。谷歌索引页面，如：

www.url.com/?cat=1

现在这些页面不存在，并且要删除请求谷歌请我在robots.txt上阻止它们

我应该使用：

User-Agent: *
Disallow: /?cat=

或

User-Agent: *
Disallow: /?cat=*

我的robots.txt文件看起来像这样：

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /author
Disallow: /?cat=
Sitemap: http://url.com/sitemap.xml.gz

这样看起来不错还是会导致搜索引擎出现问题？我应该使用Allow：/以及所有Disallow：？

Answer 1

我实际上会这样做

阻止访问所有网址包括问号（？）（更多具体来说，任何以。开头的URL 您的域名，后跟任何域名字符串，后跟一个问号，后跟任何字符串）：

User-agent: Googlebot
Disallow: /*?

所以我真的会选择：

User-agent: Googlebot
Disallow: /*?cat=

Resourse (Under patttern matching)

Answer 2

通常，您应该不使用robots.txt指令来处理已删除的内容。如果搜索引擎无法对其进行爬网，则无法判断它是否已被删除，并且可能会继续索引（甚至开始编制索引）这些URL。正确的解决方案是确保您的网站为这些网址返回404（或410）HTTP结果代码，然后它们会随着时间的推移自动退出。

如果您想使用Google的紧急URL removal tools，则无论如何都必须单独提交这些网址，因此您无法通过使用robots.txt获取任何内容。

Answer 3

如果搜索引擎无法对其进行抓取，则无法判断它是否已被删除，并且可能会继续索引（甚至开始编制索引）这些网址。

使用robots.txt来阻止/？param = X.

3 个答案: