我需要禁止将http://example.com/startup?page=2个搜索页面编入索引。
我希望http://example.com/startup被编入索引但不是http://example.com/startup?page=2和第3页,依此类推。
此外,启动可以是随机的,例如http://example.com/XXXXX?page
答案 0 :(得分:8)
像Google网站管理员工具“test robots.txt”函数所确认的那样有效:
User-Agent: *
Disallow: /startup?page=
禁止此字段的值 指定不是的部分URL 被访问。这可以是一条完整的道路, 或部分路径;任何启动的URL 不会检索此值。
但是,如果网址的第一部分将更改,则必须使用通配符:
User-Agent: *
Disallow: /startup?page=
Disallow: *page=
Disallow: *?page=
答案 1 :(得分:3)
您可以将其放在您不想编入索引的页面上:
<META NAME="ROBOTS" CONTENT="NONE">
这告诉机器人不要将页面编入索引。
在搜索页面上,使用它可能更有趣:
<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">
这指示机器人不对当前页面编制索引,但仍然按照此页面上的链接进行操作,允许他们访问搜索中找到的页面。
答案 2 :(得分:2)
样品:
###############################
#My robots.txt file
#
User-agent: *
#
#list directories robots are not allowed to index
#
Disallow: /testing/
Disallow: /staging/
Disallow: /admin/
Disallow: /assets/
Disallow: /images/
#
#
#list specific files robots are not allowed to index
#
Disallow: /startup?page=2
Disallow: /startup?page=3
Disallow: /startup?page=3
#
#
#End of robots.txt file
#
###############################
以下是Google实际robots.txt file
的链接 上获取有关Google网站管理员帮助主题的一些有用信息