Google Search Appliance是否可以生成显示您网站上已损坏链接的报告?

时间:2009-01-06 21:40:58

标签: hyperlink google-analytics

我知道Google Search Appliance可以访问此信息(因为这会影响PageRank算法),但有没有办法从抓取工具中导出此信息?

外部工具不起作用,因为很大一部分内容是针对企业内部网的。

6 个答案:

答案 0 :(得分:3)

可能是谷歌提供的东西,但我从来没有检查过。我通常使用link checker provided by W3C。 W3C还可以检测重定向,如果您的服务器通过重定向而不是返回404状态代码来处理404,则该重定向很有用。

答案 1 :(得分:1)

您可以使用Google Webmaster Tools查看您网站上断开的链接等。

但这不会向您显示外部网站的链接损坏。

答案 2 :(得分:1)

似乎这是不可能的。在状态和报告下>抓取诊断有 提供2种报告样式:目录深入“树视图” 以及“列表视图”中的100个网址。有些人尝试创建程序来浏览列表视图 但是在几千个网址之后,这似乎失败了。

我的建议是改用服务器日志。 确保在Web服务器上启用了404和引荐来源URL日志记录, 因为您可能想要更正包含断开链接的页面。

然后,您可以使用log file analyser生成损坏的链接报告。

要创建有效的长期监控断开链接的方法,您可能需要设置一个cron作业来执行以下操作:

  • 使用grep从服务器日志文件中提取包含404条目的行。
  • 使用sed删除除每行所请求的网址和引荐来源网址之外的所有内容。
  • 使用sortuniq命令从列表中删除重复项。
  • 每次将结果输出到新文件,以便您可以监控一段时间内的变化。

答案 3 :(得分:1)

一个名为Xenu的免费工具证明是这项任务的首选武器。 http://home.snafu.de/tilman/xenulink.html#Download

答案 4 :(得分:0)

为什么不分析您的网络服务器日志并查找所有404页面?这更有意义,也更可靠。

答案 5 :(得分:0)

我知道这是一个老问题,但您可以使用GSA管理控制台上的导出URL功能,然后查找状态为not_found的URL。这将显示GSA发现的所有URL,但在尝试抓取时将其返回404.