Question

我想从网页上获取pdf的直接链接，我尝试了这个正则表达式模式，但没有与我合作：

href=.*\.pdf$

要测试的数据：

<a class="btn btn-small pad-button" href="/Tests/English/english_2011_summer_A-Q_b.pdf">eng1</a><br>
<a href="english_2011_summer_A-Q_c.pdf">eng2</a>

Answer 1

主要问题是字符串$锚的结束，href值不在此位置。我只能建议使用排序解析器来提取这些值，如果你想使用正则表达式，我建议如下。

href=(["'])([^"']+\.pdf)\1

可以通过捕获组#2

来访问您想要作为匹配结果的值

Answer 2

您可以使用此正则表达式。

href=".*?([\w-]+\.pdf)"

enter image description here

这个正则表达式的想法是在最后查找包含href的所有X.pdf女巫。

Answer 3

试试这个。

使用组1并获得准确的值。

href="([^"]+\.pdf)"