非常依旧的正则表达式,并且很难搞清楚这一点。我有一个HTML文档,我想清除其中的大量URL。所有网址都以https://开头,所有网址都以井号#。
结尾任何帮助都会非常感激。在需要的情况下使用我的编辑器的sublime文本。
答案 0 :(得分:4)
执行此操作的基本方法:
\bhttps://[^\s#]+#
自由间隔:
\b //word start
https://
[^\s#]+ //followed by anything but whitespace and '#'
#
答案 1 :(得分:1)
如果你真的想清除https:// [...] #
网址之间的所有内容,那么你可以使用:
^(https)+(.)*(#)+$
但是你可能希望在你过滤的内容方面更加具体。如果这是来自数据库查询你应该没问题,因为你可以假设URL将是返回的字段的内容,你将通过某种代码循环运行正则表达式。
顺便说一句,你可以使用像http://regexpal.com/
这样的东西来磨练你的脚本