Question

非常依旧的正则表达式，并且很难搞清楚这一点。我有一个HTML文档，我想清除其中的大量URL。所有网址都以https：//开头，所有网址都以井号＃。

结尾

任何帮助都会非常感激。在需要的情况下使用我的编辑器的sublime文本。

Answer 1

执行此操作的基本方法：

\bhttps://[^\s#]+#

自由间隔：

\b                 //word start
https://           
[^\s#]+            //followed by anything but whitespace and '#'
#

Answer 2

如果你真的想清除https:// [...] #网址之间的所有内容，那么你可以使用：

^(https)+(.)*(#)+$

但是你可能希望在你过滤的内容方面更加具体。如果这是来自数据库查询你应该没问题，因为你可以假设URL将是返回的字段的内容，你将通过某种代码循环运行正则表达式。

顺便说一句，你可以使用像http://regexpal.com/

这样的东西来磨练你的脚本