提取以PDF格式结束的href值

时间:2014-10-24 23:46:44

标签: regex extract

我想从网页上获取pdf的直接链接,我尝试了这个正则表达式模式,但没有与我合作:

href=.*\.pdf$

要测试的数据:

<a class="btn btn-small pad-button" href="/Tests/English/english_2011_summer_A-Q_b.pdf">eng1</a><br>
<a href="english_2011_summer_A-Q_c.pdf">eng2</a>

3 个答案:

答案 0 :(得分:3)

主要问题是字符串$锚的结束,href值不在此位置。我只能建议使用排序解析器来提取这些值,如果你想使用正则表达式,我建议如下。

href=(["'])([^"']+\.pdf)\1

可以通过捕获组#2

来访问您想要作为匹配结果的值

答案 1 :(得分:1)

您可以使用此正则表达式。

href=".*?([\w-]+\.pdf)"

<强> Working demo

enter image description here

这个正则表达式的想法是在最后查找包含href的所有X.pdf女巫。

答案 2 :(得分:0)

试试这个。

使用组1并获得准确的值。

href="([^"]+\.pdf)"

<强>样本: http://regex101.com/r/nR8gY4/1