我有一个超过1000页的joomla网站,其中包含这样的网址:
www.mysite.com/example.html?start=10
www.mysite.com/example.html?start=20
www.mysite.com/example.html?limitstart=0
所有这些网址都是谷歌索引,在谷歌网站管理员工具中,我有一个由这些分页引起的重复元描述的巨大列表。
我知道使用robots.txt阻止它们并不困难,这就是为什么我需要一些帮助。
答案 0 :(得分:1)
您可以创建robot.txt并使用 Disallow 属性。
例如,因为您提到了这3个网址:
www.mysite.com/example.html?start=10
www.mysite.com/example.html?start=20
www.mysite.com/example.html?limitstart=0
你应该用这个:
Disallow: /?start=
Disallow: /?limitstart=
您必须使用 Disallow:,然后使用 / 以及您要禁止的内容中包含的模式。它可以定位特定的文件或文件夹。
您还可以使用用户代理属性指定要隐藏文件或文件夹的漫游器:
User-agent: *
Disallow: /?start=
Disallow: /?limitstart=
上面的代码适用于任何机器人或爬行引擎。
User-agent: googlebot
Disallow: /?start=
Disallow: /?limitstart=
此代码仅适用于Google。
作为参考,您可以阅读www.robotstxt.org上找到的材料,或者维基百科的页面也足够好。 http://en.wikipedia.org/wiki/Robots.txt
可以在此处找到另一个详细参考:https://developers.google.com/webmasters/control-crawl-index/docs/robots_txt
答案 1 :(得分:0)
正确答案将是:
用户代理:*
禁止:/ *?start =
禁止:/ *?limitstart =