Question

我从这个网站借了一个正则表达式：http://daringfireball.net/2010/07/improved_regex_for_matching_urls这几乎已经完成但是我想匹配exemple.com
我知道stackoverflow不是doyourhomework.com但我通过很长一段时间思考没有结果。这是一个小小的测试：http://jsfiddle.net/BGnMm/25/你最后可以看到exemple.com不是一个链接。

var reg=/\b((?:[a-z][\w-]+:(?:\/*)|www\d{0,3}[.]|[a-z0-9.\-]+[.][a-z]{2,4}\/)(?:[^\s()<>]+|\(([^\s()<>]+|(\([^\s()<>]+\)))*\))+(?:\(([^\s()<>]+|(\([^\s()<>]+\)))*\)|[^\s`!()\[\]{};:'".,<>?«»“”‘’]))/gi;
var allurl="http:foo.com/blah_blah http://foo.com/blah_blah/ (Something like http://foo.com/blah_blah) http://foo.com/blah_blah_(wikipedia) http://foo.com/more_(than)_one_(parens) (Something like http://foo.com/blah_blah_(wikipedia)) http://foo.com/blah_(wikipedia)#cite-1 http://foo.com/blah_(wikipedia)_blah#cite-1 http://foo.com/unicode_(✪)_in_parens http://foo.com/(something)?after=parens http://foo.com/blah_blah. http://foo.com/blah_blah/. <http://foo.com/blah_blah> <http://foo.com/blah_blah/> http://foo.com/blah_blah, http://www.extinguishedscholar.com/wpglob/?p=364. http://✪df.ws/1234 rdar://1234 rdar:/1234 x-yojimbo-item://6303E4C1-6A6E-45A6-AB9D-3A908F59AE0E message://%3c330e7f840905021726r6a4ba78dkf1fd71420c1bf6ff@mail.gmail.com%3e http://➡.ws/䨹 www.c.ws/䨹 <tag>http://example.com</tag> Just a www.example.com link. http://example.com/something?with,commas,in,url, but not at end What about <mailto:gruber@daringfireball.net?subject=TEST> (including brokets). mailto:name@example.com bit.ly/foo “is.gd/foo/” WWW.EXAMPLE.COM http://www.asianewsphoto.com/(S(neugxif4twuizg551ywh3f55))/Web_ENG/View_DetailPhoto.aspx?PicId=752 http://www.asianewsphoto.com/(S(neugxif4twuizg551ywh3f55)) http://lcweb2.loc.gov/cgi-bin/query/h?pp/horyd:@field(NUMBER+@band(thc+5a46634)) 6:00p filename.txt http://example.com/quotes-are-“part” ✪df.ws/1234 example.com example.com/";
document.write(allurl.replace(reg,"<a href='$1' >$1</a><br />"));

Answer 1

在|之后添加一个交替运算符（{2,4}\/），即

    var reg=/\b((?:[a-z][\w-]+:(?:\/*)|www\d{0,3}[.]|[a-z0-9.\-]+[.][a-z]{2,4}\/|)(?:[^\s()<>]+|\(([^\s()<>]+|(\([^\s()<>]+\)))*\))+(?:\(([^\s()<>]+|(\([^\s()<>]+\)))*\)|[^\s`!()\[\]{};:'".,<>?«»“”‘’]))/gi;

你应该对此有所了解。第一个未捕获的组(?: … )查找URL的“指标”。例如，一个指标是www（后跟最多3位数字）。但是，您要求一种方法来识别URL ，而不需要任何指示。所以，我们上面所做的是我们添加了一个子句，“或空匹配”作为“有效”指标。 这样做的结果是你的正则表达式现在选择性较低：各种字符串，不仅 example.com 而且 filename.txt ， 3.141593 和 omg ...真的被识别为URL！您唯一的其他（随时可用）选项是对后缀更具选择性，例如需要特定的后缀（com|org|net），但这会影响原始正则表达式的一般性，原始正则表达式根本没有指定任何后缀。

换句话说，您可能面临逻辑限制，而不是正则表达式编写技巧或正则表达式语言本身的限制。

Answer 2

请检查是否

var reg=/\b((?:[a-z][\w-]+:(?:\/*)|(?:www\d{0,3}[.])|[a-z0-9.\-]+[.][a-z]{2,4}\/{0,1})(?:[^\s()<>]+|\(([^\s()<>]+|(\([^\s()<>]+\)))*\))*(?:\(([^\s()<>]+|(\([^\s()<>]+\)))*\)|[^\s`!()\[\]{};:'".,<>?«»“”‘’]))/gi;

适合您的需求。 www（anyNumber）刚出现一次或零次。对不起第一个答案，没有注意到文本。

正则表达式将URL转换为链接

2 个答案: