PHP:正则表达式从字符串中获取URL

时间:2010-04-27 11:45:18

标签: php regex url

  

可能重复:
  Identifying if a URL is present in a string
  Php parse links/emails

我正在研究一些PHP代码,它从各种来源获取输入,需要找到URL并将它们保存在某个地方。需要处理的输入类型如下:

http://www.youtube.com/watch?v=IY2j_GPIqRA
Try google: http://google.com! (note exclamation mark is not part of the URL)
Is http://somesite.com/ down for anyone else?

输出:

http://www.youtube.com/watch?v=IY2j_GPIqRA
http://google.com
http://somesite.com/

我已经从互联网借用了一个正则表达式,但不幸的是擦掉了查询字符串 - 不好!

任何帮助整理正则表达式,或者也许是解决这个问题的其他方法,都将不胜感激。

2 个答案:

答案 0 :(得分:11)

Jan Goyvaerts,Regex Guru,has addressed this issue in his blog。有很多警告,例如正确提取括号内的URL。您需要的完全取决于输入数据的“质量”。

对于您提供的示例,\b(?:(?:https?|ftp|file)://|www\.|ftp\.)[-A-Z0-9+&@#/%=~_|$?!:,.]*[A-Z0-9+&@#/%=~_|$]在不区分大小写的模式下使用时可以正常工作。

因此,要查找多行字符串中的所有匹配项,请使用

preg_match_all('/\b(?:(?:https?|ftp|file):\/\/|www\.|ftp\.)[-A-Z0-9+&@#\/%=~_|$?!:,.]*[A-Z0-9+&@#\/%=~_|$]/i', $subject, $result, PREG_PATTERN_ORDER);
$result = $result[0];

答案 1 :(得分:1)

为什么不尝试这个呢。这是谷歌搜索“URL正则表达式”的第一个结果。

((https?|ftp|gopher|telnet|file|notes|ms-help):((\/\/)|(\\\\))+[\w\d:#@%\/;$()~_?\+-=\\\.&]*)

不是PHP,但它应该可以工作,我只是通过转义正斜杠来稍微修改它。

source