如何使用正则表达式匹配以https开头并以#结尾的网址?

时间:2014-01-14 19:07:22

标签: regex

非常依旧的正则表达式,并且很难搞清楚这一点。我有一个HTML文档,我想清除其中的大量URL。所有网址都以https://开头,所有网址都以井号#。

结尾

任何帮助都会非常感激。在需要的情况下使用我的编辑器的sublime文本。

2 个答案:

答案 0 :(得分:4)

执行此操作的基本方法:

\bhttps://[^\s#]+#

自由间隔:

\b                 //word start
https://           
[^\s#]+            //followed by anything but whitespace and '#'
#   

答案 1 :(得分:1)

如果你真的想清除https:// [...] #网址之间的所有内容,那么你可以使用:

^(https)+(.)*(#)+$

但是你可能希望在你过滤的内容方面更加具体。如果这是来自数据库查询你应该没问题,因为你可以假设URL将是返回的字段的内容,你将通过某种代码循环运行正则表达式。

顺便说一句,你可以使用像http://regexpal.com/

这样的东西来磨练你的脚本