搜索引擎如何看待动态配置文件?

时间:2010-06-02 13:00:54

标签: search-engine

最近搜索引擎已经能够在社交网站上寻呼动态内容。我想了解这是如何完成的。是否存在由Facebook等网站频繁更新的静态页面。 Google会尝试存储每个可能的用户名吗?

据我了解,像www.facebook.com/username这样的页面不是存储在磁盘上的实际文件,而是查询的简写,例如:从用户中选择用户名并在页面上显示信息。 Google如何了解每个用户,在涉及到推文之类的内容时,这会变得更加复杂。

编辑:我想我并没有真正问我想知道什么。我是否需要像Twitter或Facebook一样大,以便谷歌能够采用特殊的方式来抓取我的网站?如果我允许任何人查看,Google会自动查找我的用户个人资料吗?如果不是我必须做些什么来做这项工作?

3 个答案:

答案 0 :(得分:4)

特别是在推特的情况下,谷歌并不是传统意义上的“爬行”;他们integrated with Twitter实时提供搜索结果。

在您的问题的更一般情况下,动态内容对Facebook或Twitter来说并不陌生,尽管看起来似乎如此。 Google会抓取一个网址; URL提供HTML数据;谷歌索引它。无论是呈现页面的动态查询,还是静态HTML的缓存,理论上对索引过程都没什么影响。在实践中,还有更多内容(参见Michael B的评论)下面。)

请参阅Vartec关于谷歌如何找到所有公开的Facebook个人资料而没有实际登录并在FB周围寻找的简洁帖子。

好的,这太过于简单了,但让我们看看别人还有什么要说的。

答案 1 :(得分:1)

据我所知,谷歌无法阅读和存储个人资料的实际内容,因为谷歌机器人没有Facebook帐户,这将是一个巨大的隐私泄露。

该机器人通过点击facebook.com然后按照它可以找到的每个链接工作。无论它在页面上看到什么内容,它都会存储。因此,即使它遵循像www.facebook.com/username这样的动态网址,它也只会记住它在那里看到的任何内容。希望在这种特殊情况下,不是所述用户的所有私人数据。

此外,Facebook可以并确实提供搜索机器人可以遵循的特殊说明,以便谷歌搜索结果不包含一堆登录页面。

答案 2 :(得分:1)

  1. 个人资料可以从外部链接;
  2. 网站可能会提供网站地图