我知道Google Search Appliance可以访问此信息(因为这会影响PageRank算法),但有没有办法从抓取工具中导出此信息?
外部工具不起作用,因为很大一部分内容是针对企业内部网的。
答案 0 :(得分:3)
可能是谷歌提供的东西,但我从来没有检查过。我通常使用link checker provided by W3C。 W3C还可以检测重定向,如果您的服务器通过重定向而不是返回404状态代码来处理404,则该重定向很有用。
答案 1 :(得分:1)
您可以使用Google Webmaster Tools查看您网站上断开的链接等。
但这不会向您显示外部网站的链接损坏。
答案 2 :(得分:1)
似乎这是不可能的。在状态和报告下>抓取诊断有 提供2种报告样式:目录深入“树视图” 以及“列表视图”中的100个网址。有些人尝试创建程序来浏览列表视图 但是在几千个网址之后,这似乎失败了。
我的建议是改用服务器日志。 确保在Web服务器上启用了404和引荐来源URL日志记录, 因为您可能想要更正包含断开链接的页面。
然后,您可以使用log file analyser生成损坏的链接报告。
要创建有效的长期监控断开链接的方法,您可能需要设置一个cron作业来执行以下操作:
grep
从服务器日志文件中提取包含404条目的行。sed
删除除每行所请求的网址和引荐来源网址之外的所有内容。sort
和uniq
命令从列表中删除重复项。答案 3 :(得分:1)
一个名为Xenu的免费工具证明是这项任务的首选武器。 http://home.snafu.de/tilman/xenulink.html#Download
答案 4 :(得分:0)
为什么不分析您的网络服务器日志并查找所有404页面?这更有意义,也更可靠。
答案 5 :(得分:0)
我知道这是一个老问题,但您可以使用GSA管理控制台上的导出URL功能,然后查找状态为not_found的URL。这将显示GSA发现的所有URL,但在尝试抓取时将其返回404.