我有一个链接列表,但我需要FILTER-OUT并从字符串中提取正确的链接。
Extract应该以mywebsite.com开头,哪个以9-digitnumber.html结尾 链接是字符串,提取到字符串
示例
http://blah.com?f=www.mywebsite.com/sdfsf/sdfsdf/sdfsdfsdf/123456789.html&sdfsdf/sf/sdfsd8sdfsdfsdf
依旧......
由此,正则表达式必须提取
mywebsite.com/sdfsf/sdfsdf/sdfsdfsdf/123456789.html
这应该与最后的数字相匹配 “@ “[0-9] {9}”。但我对正则表达式很新,并试图学习如何正确使用它
答案 0 :(得分:1)
使用正则表达式解析HTML通常是一个坏主意。对于特定示例,您可以使用:
(mywebsite.com/(.+?)\d{9})
但正如安德鲁所说,使用正则表达式来做你想做的事并不是必需的。
答案 1 :(得分:1)
/mywebsite\.com\/[a-zA-Z0-9\/]*[0-9]{9}\.html/