一些带有虚假链接的网站如何显示在搜索引擎的结果中

时间:2011-11-03 03:39:53

标签: search-engine

这些天我遇到了几个Google搜索结果,其中包含的网站链接与我的搜索字词完全匹配。网站如何动态更改其内容,或者他们如何欺骗谷歌为我的关键字索引其网页。我读过关于内容农场的内容,但这似乎不是一个正确的答案。有人能让我知道这种技术叫什么吗?我会尝试更多地了解它。

2 个答案:

答案 0 :(得分:8)

我的理解是,使用Google或任何其他索引引擎的唯一方法是让机器人实际抓取您的网站并生成结果。显然,Google可以抓取动态网站:

然而,我发现这是一个关于你的问题的进化而不是革命性的变化。

我认为幕后发生的事情是这些事情的组合:

  • 内容索引
  • 准备好的指数
  • 用户提交的内容
  • 推荐人搜索更新

我会尝试在一个销售音乐的虚构网站上解释每一个问题 - 你有很多例子来比较这些体验。它当然会在example.com域上。

内容索引

显然,作为一个想要提供某些东西的网站,你实际上有一些内容。通常,您以某种方式对此内容进行分组。我们假设我们的音乐网站可以按不同类别对内容进行分组:

  • 作者
  • 音乐类型
  • 用户提交
  • 内容分级

这些中的每一个都可以抽象地表示为标签。例如,我们的网站可以选择使用example.com/tags/eagles来表示Eagles,或者使用example.com/tags/rock来表示所有摇滚乐队。谷歌可以将这些索引编入索引,因此任何潜在的搜索都可以生成我们网站的链接。

准备好的索引

准备好的索引类似,但是是通用索引而不是真实内容。这可以通过多种方式准备,例如:

  • 拿一本字典并添加所有单词
  • 从网上抓取几百万页(可能使用搜索引擎提供的链接!)并经常从那里获取重复的短语
  • 从免费论坛中获取内容
  • 使用Wikipeda
  • 从免费提供的图书中获取文字,例如来自Project Gutenberg
  • 的图书

例如,我们的网站会以任何方式从与音乐相关的文本中获取任何单词,并使标签与之前的标签类似。例如。只需抓取维基百科上的Rock music页面,即可获得大量标签。

用户提交的内容

这通常是在您的网站启动并运行之后。让我们说我们在我们的网站上放了一个搜索框,然后用户进来输入摇滚音乐"。 Doh,我们已经知道了,所以搜索没有什么好处。但是,让我们说我们遍历Web服务器日志并查看langeleik的一些搜索。现在,这将是我们之前可能没有索引的东西。很酷,只是在我们的网站上生成另一个标签。

很明显,谷歌并不知道 - 所以我们在sitemap创建了一个条目,并且在另一个Googlebot抓取之后又在那里创建了一个条目。当用户在Google上搜索" langeleik"时,其中一个链接可能是指向example.com/tags/langeleik的链接。

还有其他可能更有价值的用户输入形式 - 评论,论坛帖子等。因此,除了托管论坛之外,还有许多通用论坛没有其他目的。它是一个很棒的数据源,您可以免费获得新内容。

最后,所有这些都应该转到您的网站站点地图。您可以拥有巨大的站点地图,请参阅:

推介

最后一件事是推荐。在您的网站启动并运行后,您的某些Google搜索将直接发送给您。当你可以利用HTTP Referer标题时(是的,这是拼写错误 - 在Wikipedia上查看),请参阅:

请注意,Google搜索都是:

  • 不完全
  • 模糊

因此,您可以搜索" langeleik"以上,但有些链接的标题是" Langeleik和Harpe"。没有什么不寻常的,但请注意反过来 - 如果你搜索" langeleik和harpe",它不仅会找到两个术语的所有页面,还会找到包含其中一个或多个页面的页面。如果我们知道harpe,而不是langeleik,并且有人搜索" langeleik和harpe",我们将通过HTTP {Referencer标题'获得q参数,例如q=langeleik+harpe。很酷 - 如果我们想要的话,只需添加另一个词即可添加到我们的站点地图中。

至于模糊性,请注意当你搜索" eagles"时,你可以获得从鸟类到NFL球队到摇滚乐队的所有内容。因此,即使我们是一个音乐网站,我们也可以扩展我们的视野(如果需要)到最新的NFL新闻 - 一些完全不相关的东西,对某些网站非常有用。

结论 - 这是一种错觉

我认为所有这些都是非常丰富的站点地图构建源的组合。您可以使用上述技术轻松生成数百万个唯一标记。因此,"任何"您可以在example.com/tags上找到您输入的内容。

但是,您必须注意,这只是 错觉 。例如,如果您搜索" ertfghedctgb" (很容易在常规的QWERTY键盘上键入 - ert + fgh + edc + tgb),你很可能从谷歌(我目前没有)得到任何东西。对于任何人来说,将它放在他们的站点地图中是不常见的(或者不足以让搜索引擎将其编入索引)。

答案 1 :(得分:1)

所有浏览器和抓取工具在每次请求时都会向Web服务器发送一个称为HTTP_USER_AGENT字符串的内容,除非软件没有故意添加它。此字符串标识使用的浏览器,版本,渲染引擎和更多详细信息。 (见http://en.wikipedia.org/wiki/User_agent

Web服务器可以读取HTTP_USER_AGENT并更改提供的内容。例如,它被用作检测您在手持设备或大屏幕上的一部分,在这种情况下,您可能需要给定网页的不同布局。

人们花了很多钱来推动他们网站的流量,特别是通过谷歌和必应等大型搜索引擎。 SEO这一术语代表搜索引擎优化,是一种技术,网页所有者优化其内容,使搜索引擎轻松提供相关的点击。如果您有一个使用大量JavaScript和Ajax的复杂站点,您可能希望向搜索引擎提供静态页面,以允许他们阅读您的内容。

恶意网站有时会向搜索引擎提供自动生成的搜索引擎优化优化内容,以便在搜索中排名靠前,但为人类用户提供包含广告的简单网页,以提高收入。

此答案是作为答案的替代方式提供的,正如icyrock-com所描述的那样,正常的动态内容是获取另一页而不是Google指示的原因。