Question

我有一个网页，可以包含以下href格式。

<a href='/documents/aso2v51_1bk.pdf' target="_blank">Ordering Model – Access Service Volume II – Analysis</a>

该页面可以包含0或更多这些类型的链接。我想提取href路径和doc的标题。我想通过拆分避免在vb.net中这样做，并希望在RegEx中有一个简单的修复

Answer 1

您可以使用以下表达式：

(?<=href='\/documents\/)(?<href>.*(?='))(?:.*?(?=>)>)(?<title>.*(?=<))

实时正则表达式here。

群组href ：aso2v51_1bk.pdf

群组标题：Ordering Model – Access Service Volume II – Analysis