提取URL值的正则表达式

时间:2014-10-30 11:51:32

标签: java regex parsing screen-scraping

我有不同的网址列表,我需要找到以下网址

<a class=\"subprocess\" href=\"/nikkshow/tlProcessView.do?id=5397458\"> View G </a>

5397458 - 这个数字可能不同。

查看G - 这可以是查看A或B或C ...

After finding this url, i need to extract the value "View G" from this url. 
I'm new to regex please help me to solve this

1 个答案:

答案 0 :(得分:1)

如果html代码中的反斜杠出现意外,则正则表达式为:

<a[^>]+href="([^>"]*)"[^>]*>([^<]*)<\/a>

示例:http://regex101.com/r/xO1wG2/4

使用反斜杠:

<a[^>]+href=\\"([^>"]*)\\"[^>]*>([^<]*)<\/a>

示例:http://regex101.com/r/xO1wG2/5