我创建了一个使用wordpress的网站,第一天它充满了虚拟内容,直到我上传了我的。谷歌索引页面,如:
www.url.com/?cat=1
现在这些页面不存在,并且要删除请求谷歌请我在robots.txt上阻止它们
我应该使用:
User-Agent: *
Disallow: /?cat=
或
User-Agent: *
Disallow: /?cat=*
我的robots.txt文件看起来像这样:
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /author
Disallow: /?cat=
Sitemap: http://url.com/sitemap.xml.gz
这样看起来不错还是会导致搜索引擎出现问题?我应该使用Allow:/以及所有Disallow:?
答案 0 :(得分:2)
我实际上会这样做
阻止访问所有网址 包括问号(?)(更多 具体来说,任何以。开头的URL 您的域名,后跟任何域名 字符串,后跟一个问号, 后跟任何字符串):
User-agent: Googlebot
Disallow: /*?
所以我真的会选择:
User-agent: Googlebot
Disallow: /*?cat=
答案 1 :(得分:0)
通常,您应该不使用robots.txt指令来处理已删除的内容。如果搜索引擎无法对其进行爬网,则无法判断它是否已被删除,并且可能会继续索引(甚至开始编制索引)这些URL。正确的解决方案是确保您的网站为这些网址返回404(或410)HTTP结果代码,然后它们会随着时间的推移自动退出。
如果您想使用Google的紧急URL removal tools,则无论如何都必须单独提交这些网址,因此您无法通过使用robots.txt获取任何内容。
答案 2 :(得分:0)
如果搜索引擎无法对其进行抓取,则无法判断它是否已被删除,并且可能会继续索引(甚至开始编制索引)这些网址。