如何使用正则表达式从html源代码中提取特定链接

时间:2011-12-12 16:50:33

标签: html regex hyperlink notepad++ extract

我有一个充满链接的html页面。但它们在预标签中如下

<pre class="alt2" dir="ltr" style="
        margin: 0px;
        padding: 6px;
        border: 1px inset;
        width: 640px;
        height: 130px;
        text-align: left;
        overflow: auto">
http://test.com/files/tivist.r00 
http://test.com/files/tivist.r01 
http://test.com/files/fdfd.rar 
http://test.com/files/gfgf.rar.html 
http://test.com/files/trtr.zip 
</pre>
</div><br />

该网页上有很多像这样的链接

有没有办法只从整页获取这些链接。

我正在使用记事本++。如果我能得到正则表达式,只能提取这些链接

2 个答案:

答案 0 :(得分:1)

您可以使用以下正则表达式在文档中找到它们。

http://[^\s]*

我猜你可以编辑它或类似的东西

http://[^\s"><]*

答案 1 :(得分:1)

请确保您逐行设置选项。 Notepad ++有一个非常有限且记录不完整的正则表达式引擎。尝试下载editpad pro试用版。

(?<=\<pre.+?)http:\/\/.+?($|\s)(?=.+?\<\/pre\>)

这应该只获得pre标记内的链接。

以下是Edit Pad Pro试用版的屏幕截图

enter image description here