我正在寻找防止对网页各部分编制索引的方法。特别是对页面的评论,因为它们根据用户编写的内容对条目进行了大量权衡。这使得页面上的Google搜索返回了大量不相关的页面。
以下是我目前正在考虑的选项:
1)使用JavaScript加载评论,以防止搜索引擎看到它们。
2)使用用户代理嗅探只是不输出抓取工具的评论。
3)使用特定于搜索引擎的标记来隐藏页面的某些部分。不过,这个解决方案充其量只是古怪。据称,这可以做到以防止雅虎!索引特定内容:
<div class="robots-nocontent">
This content will not be indexed!
</div>
这是一种非常难看的方式。我读到了一个看起来更好的Google解决方案,但我相信它只适用于Google Search Appliance(有人会证实这一点吗?):
<!--googleoff: all-->
This content will not be indexed!
<!--googleon: all-->
有没有人推荐其他方法?以上三种中哪一种最好的方式?就个人而言,我倾向于#2,因为虽然它可能不适用于所有搜索引擎,但很容易针对最大的搜索引擎。它对用户没有任何副作用,除非他们故意冒充仿冒网络爬虫。
答案 0 :(得分:7)
我会使用您的JavaScript选项。它有两个优点:
1)机器人看不到它 2)它会加快你的页面加载时间(异步和不引人注意地加载注释,例如通过jQuery)...页面加载时间对你的搜索排名有一个被低估的积极影响
答案 1 :(得分:4)
Javascript是一个选项,但引擎在阅读javascript时越来越好,说实话我认为你的想法太多了,引擎喜欢独特的内容,你在每个页面上的内容越多越好,如果用户提供它......这是圣杯。
仅仅因为你的评论者提到你的烤面包机评论上的星球大战并不意味着你不会为烤面包机模型排名,它只是意味着你可能会为星球大战烤面包机排名。
另一个想法是,你只能向登录的人显示评论,大学同样我也相信,他们会显示帖子的评论数量,但你必须登录才能看到它们。
答案 2 :(得分:2)
googleoff和googleon适用于Google Search Appliance,这是一个搜索引擎,销售给需要搜索自己内部文档的公司。它对于实时Google网站无效。
我认为1号是最好的解决方案。搜索引擎不喜欢当你给他们提供其他材料而不是给你的用户时,所以2号可以让你完全从搜索列表中退出。
答案 3 :(得分:1)
这是我第一次听说搜索引擎提供了一种方法,告知他们页面的一部分是无关紧要的。
Google有一项功能,可让网站管理员声明其网站的部分内容,供网络搜索引擎用于在抓取时查找网页。
通过在HTML页面的HEAD部分中使用META标记指定最相关的关键字,您可以相对不再强调页面上的某些内容。我认为这更符合用于构建搜索引擎的工程理念。
看看Google's Search Engine Optimization tips。他们会明确说明他们的意愿,并且不会让您影响他们为您的网站编制索引的方式。