Question

我使用BBEdit。 BBEdit支持多文件搜索并替换为GREP。使用此方法（从stackoverflow处的Notepad ++帖子中复制）：

(\bhref="|(?!^)\G)[^"<_]*\K_

我可以获得包含下划线的所有URL的列表。这个想法是用破折号代替所有下划线。没问题，BBEdit搜索面板上有一个“替换为”字段（例如Notepad ++）。

一切正常，但但我不想实际处理所有URL。例如，应保留原样的文件下载URL，尤其是带有.exe，.zip，.sit和.dmg扩展名的URL。实际上，我要处理的URL是.php和.html URL。

我的意思是应该在此处找到这种类型的网址：

<a href="software/internet-tools/ftp-disk_sheet_us.php">

但不是这个：

<a href="software/internet-tools/ftp-disk_us_setup.exe">

到目前为止，我一直未能成功编辑REGEX，由于我必须处理600个文件中的30,000个网址，所以我真的想确定自己没有做错任何事情。

非常感谢您为我提供帮助。

Answer 1

仅当链接以.html / .htm或.php结尾时，您才可以强制匹配：

(?:\G(?!^)|\bhref="(?=[^"]*\.(?:html?|php)"))[^"<_]*\K_
                   ^^^^^^^^^^^^^^^^^^^^^^^^^

(?=[^"]*\.(?:html?|php)")正向提前查询将需要除"以外的任何0+字符，然后是.，后跟htm / html或{{1} }，紧接php之后，否则将找不到匹配项。

详细信息