我的网站有大约200篇有用的文章。因为网站具有包含大量参数的内部搜索功能,所以搜索引擎最终会利用标签,搜索短语,版本,日期等附加参数的所有可能排列来搜索网址。这些页面大多只是搜索结果列表以及原始文章的一些片段。
根据谷歌的网站管理员工具,谷歌只搜集了xml站点地图中200个条目中的大约150个。看起来谷歌上网后几年内还没有看到所有内容。
我计划在robots.txt中添加一些“Disallow:”行,以便搜索引擎不再抓住那些动态网址。此外,我计划在网站站长工具“网站配置”中禁用一些网址参数 - > “url参数”部分。
这会改善或损害我目前的SEO排名吗?它看起来好像我的网站正在丢失数千个内容页面。
答案 0 :(得分:1)
这正是canonical URLs的用途。如果一个页面(例如文章)可以通过多个URL访问,那么您需要使用规范URL指定主URL。这可以防止重复的内容问题,并告诉Google在搜索结果中显示哪个网址。
因此,请勿阻止任何文章,也不要输入任何参数。只需使用规范网址,您就可以了。
答案 1 :(得分:0)
正如nn4l所指出的,规范不是搜索页面的好方法。
您应该做的第一件事是搜索结果页面包含一个说明无索引的机器人元标记。这有助于将其从索引中删除,让Google专注于您的真实内容。谷歌应该在重新抓取时慢慢删除它们。
其他措施:
在GWMT中告诉Google忽略所有这些搜索参数。只是一个乐队援助,但可能有助于加快恢复。
请勿阻止robots.txt文件中的搜索页面,因为这会阻止机器人抓取并干净地删除已编入索引的页面。等到你的索引清楚之后再进行完全阻止。
您的搜索系统必须基于链接(标签)或基于GET的表单,而不是基于POST的表单。这就是他们被索引的原因。将它们切换到基于POST的表单应该可以阻止机器人首先尝试索引这些页面。 JavaScript或AJAX是另一种方法。