Question

我想要一个正则表达式来获取双引号之间的任何URL。

<a href="http://www.any-web_address.com">
<a href="http://142.12.64.71:8083">

Answer 1

"http://[0-9 a-z A-Z . : ]{1,100}"

Answer 2

这样的东西？

\"\K([\w\:\/\.\-]+)

如果你想要双引号（据说＆＃34;在双引号和＃34之间取任何网址;所以我想没有\＆＃34;）：

\"([\w\:\/\.\-]+)\"

Answer 3

这是我的建议（如果你的正则表达式支持外观）：

(?<=href="|link="|src=")(((http|https)(:\/\/))?([\/\w\-]{2,})(([\.])([\w\-]*)){1,})([\w.,@?^=%&amp;:\/~+#-]*[\w@?^=%&amp;\/~+#-]*)(?=")

Answer 4

如果您不减少问题的范围，这篇帖子：Why it's not possible to use regex to parse HTML/XML: a formal explanation in layman's terms可能会对您有所帮助。否则，例如，如果您只想要href=之后的URI，您可以这样做：

/(?:href=")(.[^"]*)"/g

Answer 5

使用以下正则表达式：

.*href="(\S*)" demo

我们正在有效地寻找href=的存在，然后捕获出现在双引号之间的所有非空格字符。