用于获取网站中每页链接的快速列表的脚本或代码段

时间:2011-02-24 22:23:28

标签: scripting web reporting

如何以以下格式快速制作网站报告:

Page Name.
- Links within the page

Page Name.
- Links within the page

任何编程或脚本语言都可以。

虽然我更喜欢Windows上的解决方案,但我们拥有以下所有功能:办公室提供Windows,Mac和Linux平台。

只是想方设法做到这一点而不用大张旗鼓。

2 个答案:

答案 0 :(得分:0)

可能有一些工具可以为您做到这一点,但是并不是很难将自己组合在一起。一种可能的解决方案是......

  1. 使用wget(可在Windows上找到)下载所有HTML文件,
  2. 使用一些xpath工具或grep with regexps来获取页面中的标题和链接。
  3. ///延

答案 1 :(得分:0)

有大量的链接分析器可以做到这一点。 Here's我在谷歌找到的第一个。

对于更有趣的事情,Don Syme做了一个很棒的F#演示,他在其中编写了一个非常简单的异步URL处理类。我找不到确切的链接,但here's类似于F#MVP。您需要调整它以拉出链接,并在需要嵌套时递归地跟随它们。