我有一个网页,可以包含以下href格式。
<a href='/documents/aso2v51_1bk.pdf' target="_blank">Ordering Model – Access Service Volume II – Analysis</a>
该页面可以包含0或更多这些类型的链接。我想提取href路径和doc的标题。我想通过拆分避免在vb.net中这样做,并希望在RegEx中有一个简单的修复
答案 0 :(得分:0)
您可以使用以下表达式:
(?<=href='\/documents\/)(?<href>.*(?='))(?:.*?(?=>)>)(?<title>.*(?=<))
(?<=href='\/documents\/)
积极向后看。(?<href>.*(?='))
命名捕获组,匹配&#34; &#39; &#34; (?:.*?(?=>)>)
匹配,但不要抓住所有内容直到&#34; &GT; &#34; (?<title>.*(?=<))
命名捕获组,匹配所有内容,直到&#34; &LT; &#34; 实时正则表达式here。
群组href :aso2v51_1bk.pdf
群组标题:Ordering Model – Access Service Volume II – Analysis