正则表达式-如此之近,却又如此之遥

时间:2018-11-06 15:28:18

标签: python regex

这是我当前的正则表达式:(?:ht|f)tps?:[\S]*\/?(?:\w+)

我需要对其进行优化,以使其正确地从下面引用的文本中拉出以下链接:http://www.purdue.edu/transcom/index.php

关于如何改善当前正则表达式的任何想法?预先感谢!

  

有关实验方案和结果的其他信息是   在随附文件和TransCom项目网站中提供   ({{3}级的结果   这里介绍的实验分为两大类

2 个答案:

答案 0 :(得分:0)

我没有对您的正则表达式进行彻底的测试,这还不够清楚为什么您当前的正则表达式会失败。 但是要大致了解一下,我将使用该组的重复(html的授权字符减去诸如[a-zA-Z0-9。]等斜杠)和斜杠) 像

r'(?:ht|f)tps?:\\(?:\\[_html_authorized_chars])*'

如果答案始终在引号或括号内,则为肯定的超前断言...

答案 1 :(得分:0)

  

网址类似的拆分器

     

匹配相似的网址,并将其拆分为地址和参数

     

by deme72

([--:\w?@%&+~#=]*\.[a-z]{2,4}\/{0,2})((?:[?&](?:\w+)=(?:\w+))+|[--:\w?@%&+~#=]+)? 来源:regexr.com community