在VB.Net中使用RegEx来提取下载链接

时间:2018-06-18 19:23:29

标签: regex vb.net

我有一个网页,可以包含以下href格式。

<a href='/documents/aso2v51_1bk.pdf' target="_blank">Ordering Model – Access Service Volume II – Analysis</a>

该页面可以包含0或更多这些类型的链接。我想提取href路径和doc的标题。我想通过拆分避免在vb.net中这样做,并希望在RegEx中有一个简单的修复

1 个答案:

答案 0 :(得分:0)

您可以使用以下表达式:

(?<=href='\/documents\/)(?<href>.*(?='))(?:.*?(?=>)>)(?<title>.*(?=<))
  • (?<=href='\/documents\/)积极向后看。
  • (?<href>.*(?='))命名捕获组,匹配&#34; &#39; &#34;
  • (?:.*?(?=>)>)匹配,但不要抓住所有内容直到&#34; &GT; &#34;
  • (?<title>.*(?=<))命名捕获组,匹配所有内容,直到&#34; &LT; &#34;

实时正则表达式here

群组href aso2v51_1bk.pdf

群组标题Ordering Model – Access Service Volume II – Analysis