可能重复:
Identifying if a URL is present in a string
Php parse links/emails
我正在研究一些PHP代码,它从各种来源获取输入,需要找到URL并将它们保存在某个地方。需要处理的输入类型如下:
http://www.youtube.com/watch?v=IY2j_GPIqRA
Try google: http://google.com! (note exclamation mark is not part of the URL)
Is http://somesite.com/ down for anyone else?
输出:
http://www.youtube.com/watch?v=IY2j_GPIqRA
http://google.com
http://somesite.com/
我已经从互联网借用了一个正则表达式,但不幸的是擦掉了查询字符串 - 不好!
任何帮助整理正则表达式,或者也许是解决这个问题的其他方法,都将不胜感激。
答案 0 :(得分:11)
Jan Goyvaerts,Regex Guru,has addressed this issue in his blog。有很多警告,例如正确提取括号内的URL。您需要的完全取决于输入数据的“质量”。
对于您提供的示例,\b(?:(?:https?|ftp|file)://|www\.|ftp\.)[-A-Z0-9+&@#/%=~_|$?!:,.]*[A-Z0-9+&@#/%=~_|$]
在不区分大小写的模式下使用时可以正常工作。
因此,要查找多行字符串中的所有匹配项,请使用
preg_match_all('/\b(?:(?:https?|ftp|file):\/\/|www\.|ftp\.)[-A-Z0-9+&@#\/%=~_|$?!:,.]*[A-Z0-9+&@#\/%=~_|$]/i', $subject, $result, PREG_PATTERN_ORDER);
$result = $result[0];
答案 1 :(得分:1)
为什么不尝试这个呢。这是谷歌搜索“URL正则表达式”的第一个结果。
((https?|ftp|gopher|telnet|file|notes|ms-help):((\/\/)|(\\\\))+[\w\d:#@%\/;$()~_?\+-=\\\.&]*)
不是PHP,但它应该可以工作,我只是通过转义正斜杠来稍微修改它。