使用grep捕获javascript链接

时间:2010-10-05 13:41:46

标签: javascript linux grep wget

使用wget创建我的网站的静态副本时,有几个元素需要通过javascript引入的外部资源。脚本的模式应该相当稳定,并且不会动态创建url。我需要提取的网址如下:

onclick="return ns.homepage.load({e:this, src:'https://mysub.mydomain.tld/somedir/content/123456789.html'})"

我想将这些网址列表输出到本地文件中,以便我也可以将它们输出。

1 个答案:

答案 0 :(得分:0)

使用perl + HTML :: TreeBuilder来提取你的旁边代码,然后解析它。

你可能不得不做一些正则表达式的工作,即这个模块可能只会让你扼杀'onclick()'事件 - 但是其余的不应该太糟糕。