如何区分链接和文本?

时间:2014-06-06 00:31:58

标签: url rfc

我有文本行,我必须找到这些行是否包含一些链接。我怎么能这样做?首先我想在文本中找到 www ,但有些链接可能没有www。其次,我想在文本中找到 http ,但所有链接都不包含http。该怎么办?

1 个答案:

答案 0 :(得分:0)

这是一个改编自@diegoperini的http://mathiasbynens.be/demo/url-regex条目的正则表达式(Ruby语法;您可能需要将某些细节如Unicode \uXXXX更改为系统使用的任何内容):

(?:(?:https?|ftp):\/\/)?(?:\S+(?::\S*)?@)?(?:(?!10(?:\.\d{1,3}){3})(?!127(?:\.\d{1,3}){3})(?!169\.254(?:\.\d{1,3}){2})(?!192\.168(?:\.\d{1,3}){2})(?!172\.(?:1[6-9]|2\d|3[0-1])(?:\.\d{1,3}){2})(?:[1-9]\d?|1\d\d|2[01]\d|22[0-3])(?:\.(?:1?\d{1,2}|2[0-4]\d|25[0-5])){2}(?:\.(?:[1-9]\d?|1\d\d|2[0-4]\d|25[0-4]))|(?:(?:[a-z\u00a1-\uffff0-9]+-?)*[a-z\u00a1-\uffff0-9]+)(?:\.(?:[a-z\u00a1-\uffff0-9]+-?)*[a-z\u00a1-\uffff0-9]+)*(?:\.(?:[a-z\u00a1-\uffff]{2,})))(?::\d{2,5})?(?:\/[^\s]*)?