谷歌机器人,虚假链接

时间:2011-06-30 13:19:32

标签: hyperlink sitemap googlebot

我有一个谷歌机器人的问题,我有一台服务器在Windows Server 2009上工作,系统名为Workcube,它适用于coldfusion,内置错误报告器,因此我收到每条错误消息,特别是它关注谷歌机器人,试图去一个虚假的链接,这是不存在的!链接看起来像这样:

  1. http://www.bilgiteknolojileri.net/index.cfm?fuseaction=objects2.view_product_list&product_catid=282&HIERARCHY=215.005&brand_id=hoyrrolmwdgldah
  2. http://www.bilgiteknolojileri.net/index.cfm?fuseaction=objects2.view_product_list&product_catid=145&HIERARCHY=200.003&brand_id=hoyrrolmwdgldah
  3. http://www.bilgiteknolojileri.net/index.cfm?fuseaction=objects2.view_product_list&product_catid=123&HIERARCHY=110.006&brand_id=xxblpflyevlitojg
  4. http://www.bilgiteknolojileri.net/index.cfm?fuseaction=objects2.view_product_list&product_catid=1&HIERARCHY=100&brand_id=xxblpflyevlitojg
  5. 当然,像brand_id = hoyrrolmwdgldah或brand_id = xxblpflyevlitojg这样的定义是假的,我不知道会出现什么问题?!需要建议!谢谢大家的帮助! ;)

1 个答案:

答案 0 :(得分:1)

您可能希望使用Google网站站长工具验证您的网站,该工具会提供发现错误的网址。

您的日志也有效,但您需要确认Googlebot确实是您的网站,而不是欺骗其用户代理的人。

以下是执行此操作的说明:http://googlewebmastercentral.blogspot.com/2006/09/how-to-verify-googlebot.html

基本上,您需要在从反向查找收到主机后进行反向DNS查找,然后进行正向DNS查找。

一旦您确认它是真正的Googlebot,您就可以开始进行故障排除了。您看到Googlebot不会请求之前没有看到的网址,这意味着Googlebot不应该提出直接的对象引用请求。我怀疑它是一个带有Googlebot用户代理的流氓机器人,但如果不是,你可能想查看你的网站,看看你是否意外链接到这些网页。

不幸的是,您发布了完整的网址,因此即使您清理了网站,Googelbot也会看到来自Stack Overflow的链接,并继续抓取它们,因为它会在他们的抓取队列中。

我建议301将这些网址重定向到对您的用户有意义的地方。否则我会404或410这些页面,所以谷歌知道从他们的索引中删除这些页面。

此外,如果这些是您不想编入索引的网页,我建议您添加robots.txt文件的路径,以便Googlebot无法继续请求更多这些网页。

不幸的是,没有真正好的方法告诉Googlebot永远不会再次抓取这些网址。您可以随时访问Google网站站长工具,并请求从其索引中删除网址,这可能会阻止Googlebot再次抓取这些网址,但这并不能保证。