我有我的博客(如果你愿意,可以从我的个人资料中看到它),它是新鲜的,以及谷歌机器人解析结果。
结果让我感到震惊。显然,我网站上最常见的2个单词是“rss”和“feed”,因为我使用文本链接,如“评论RSS”,“发布Feed”等。这两个单词将出现在每个帖子中,而其他单词会更罕见。
有没有办法让这些链接从Google的解析中消失?我不希望技术链接被编入索引。我只希望内容,标题,描述被编入索引。我正在寻找除了用图像替换此文本之外的其他内容。
我从2007年开始在Google上发现了一些陈旧的讨论(我认为在3年内很多事情都可能发生变化,希望也是如此)
这个问题不是关于robots.txt以及如何让Google忽略网页。它是关于让它忽略页面的一小部分,或者以一种人类可以看到并且机器人看不到的方式转换部分。
答案 0 :(得分:15)
有一种简单的方法可以告诉谷歌不要将文档的部分内容编入索引,即使用googleon
和googleoff
:
<p>This is normal (X)HTML content that will be indexed by Google.</p>
<!--googleoff: index-->
<p>This (X)HTML content will NOT be indexed by Google.</p>
<!--googleon: index-->
在此示例中,Google不会将第二段编入索引。请注意“index
”参数,该参数可以设置为以下任何一项:
index
- “googleoff: index
”包围的内容不会被编入索引
由谷歌
anchor
- “googleoff: anchor
”区域内任何链接的锚文本
将不与目标页面相关联
snippet
- 不会使用“googleoff: snippet
”所包围的内容
为搜索结果创建片段
all
- “googleoff: all
”所包围的内容将全部用
答案 1 :(得分:8)
我在一个拥有美国数千名学校名称排名前三的谷歌网站上工作,我们做了很多工作来保护我们的搜索引擎优化。你可以做三件事(这可能是浪费时间,继续阅读):
也就是说,抓取工具很聪明,而且你不是唯一一个充满永久链接和rss链接的网站。他们关心上下文,并在标题和正文中查找术语和短语。他们知道如何确定您的博客是关于技术而不是RSS。我非常怀疑这些链接对你的SEO有任何负面影响。你实际上试图解决什么问题?
如果你想建立搜索引擎优化,找出你给读者提供的价值,并写下来。说出有趣的事情会引导他人链接到您的博客,抓取工具会理解您是人们重视的信息来源。更多地考虑读者看到和理解的内容,而不是考虑爬虫看到的想法。
答案 2 :(得分:1)
您对索引机器人的唯一控制是robots.txt文件。请参阅this documentation上由Google链接的their page explaining the usage of the file。
您基本上可以禁止某些链接和网址,但不一定是关键字。
答案 3 :(得分:1)
除黑帽服务器端方法外,您无能为力。您可能想要查看为什么经常使用这些单词并从网站中删除其中的一些单词。
过去你可以使用JS从googlebot“隐藏”东西,但你现在不能解析JS。 (http://www.webmasterworld.com/google/4159807.htm)
答案 4 :(得分:1)
首先考虑一下这个问题。如果谷歌认为“RSS”是主要的关键词,可能暗示你的其他内容有点浅,需要扩展。也许这应该是你关注的焦点。如果你的其他内容丰富,我不会担心这个问题,因为搜索引擎应该知道页面的标题和标题是什么。只需确保RSS等不在标题或粗体或强标记中。
其次正如你提到的那样,你可能不想使用图像,因为它们不能在没有替代文字的情况下对屏幕阅读器进行评估,如果他们有alt文本或支持文本,那么你可以重新添加关键字。但是aria live可能有帮助你解决了这个问题,但我不是可访问性方面的专家。
选项强>:
将css内容属性与pseudo:before或:after一起使用以添加内容。我不确定机器人是否会在CSS中的内容属性中索引单词,并且知道与每个页面相关的内容值,但似乎不太可能。把像RSS这样的词放在CSS中基本上说它是一种风格的东西而不是HTML的东西,因此即使引擎索引它们也不会给它添加太多/任何价值。例如,HTML和CSS可以是:
<a href="/my-feed.rss" class="add-text"></a>
.add-text:after { content:'View my RSS feed'; }
请注意,上述内容在旧版本的IE中不起作用,因此如果您愿意,可能需要一些IE版本的评论。
答案 5 :(得分:1)
Google抓取工具很聪明,但是对它们进行编程的人才是最聪明的。人类总是在页面中看到合理的东西,他们会花时间在博客上,这些博客有一些很好的内容,最罕见和独特。 这是关于常识,人们如何访问您的博客以及他们花费多少时间。 Google会以同样的方式衡量搜索结果。随着每日访问次数的增加以及网站内容变得更好并且每天都在更新,您的网页排 此页面有多次重复的“答案”字样。这并不意味着它不会被索引。每个人都有多大用处。 我希望它会给你一些想法
答案 6 :(得分:1)
只有当您托管自己的搜索结果(通常是针对自己的内部网站)时,Google Search Appliance才支持“ googleon”和“ googleoff”。
Google的网络搜索完全不支持它们。因此,请不要这样做,我认为不应将其标记为正确答案,因为这可能会造成歧义。
现在,要使Google排除页面的一部分,您需要将该内容放置在单独的文件中,例如excluded.html,并使用iframe在主机页面上显示该内容。
iframe标记从另一个文件中获取内容,并将其插入到宿主页面中。我认为目前没有其他可用的方法。
答案 7 :(得分:1)
Google忽略具有data-nosnippet
的HTML标签:
<p>This text can be included in a snippet <span data-nosnippet>and this part would not be shown</span>.</p>
答案 8 :(得分:0)
不,确实没有那样的东西。有各种服务器端技术,但如果谷歌抓到你为它的机器人提供的文本比你给网站访问者提供的不同,它会对你造成惩罚。
答案 9 :(得分:-2)
您必须从请求的用户代理手动检测“Google Bot”,并提供与您通常为用户提供的内容不同的内容。