我想从网页上获取pdf的直接链接,我尝试了这个正则表达式模式,但没有与我合作:
href=.*\.pdf$
要测试的数据:
<a class="btn btn-small pad-button" href="/Tests/English/english_2011_summer_A-Q_b.pdf">eng1</a><br>
<a href="english_2011_summer_A-Q_c.pdf">eng2</a>
答案 0 :(得分:3)
主要问题是字符串$
锚的结束,href值不在此位置。我只能建议使用排序解析器来提取这些值,如果你想使用正则表达式,我建议如下。
href=(["'])([^"']+\.pdf)\1
可以通过捕获组#2
答案 1 :(得分:1)
答案 2 :(得分:0)