这是我当前的正则表达式:(?:ht|f)tps?:[\S]*\/?(?:\w+)
我需要对其进行优化,以使其正确地从下面引用的文本中拉出以下链接:http://www.purdue.edu/transcom/index.php
关于如何改善当前正则表达式的任何想法?预先感谢!
有关实验方案和结果的其他信息是 在随附文件和TransCom项目网站中提供 ({{3}级的结果 这里介绍的实验分为两大类
答案 0 :(得分:0)
我没有对您的正则表达式进行彻底的测试,这还不够清楚为什么您当前的正则表达式会失败。 但是要大致了解一下,我将使用该组的重复(html的授权字符减去诸如[a-zA-Z0-9。]等斜杠)和斜杠) 像
r'(?:ht|f)tps?:\\(?:\\[_html_authorized_chars])*'
如果答案始终在引号或括号内,则为肯定的超前断言...
答案 1 :(得分:0)
网址类似的拆分器
匹配相似的网址,并将其拆分为地址和参数
by deme72
([--:\w?@%&+~#=]*\.[a-z]{2,4}\/{0,2})((?:[?&](?:\w+)=(?:\w+))+|[--:\w?@%&+~#=]+)?
来源:regexr.com community