Question

我正在处理一个问题，写一个python正则表达式'不'来识别href标签中的某个模式。

我的目标是用href链接替换所有出现的DSS [a-z] {2} [0-9] {2}，如下所示，但不替换href标签内发生的相同模式

目前正则表达式：

replaced = re.sub("[^http://*/s](DSS[a-z]{2}[0-9]{2})", "<a href=\"http://test.com=\\1\">\\1</a>", input)

我需要使用OR运算符将这个新的正则表达式添加到我现有的

中

修改

我正在尝试使用正则表达式进行简单的操作。我希望使用正则表达式在html中的任何位置替换模式的出现，除非在<a><\a>内发生。

Answer 1

在同一个句子中有正则表达式和HTML的任何问题的答案是here。

在Python中，最好的HTML解析器确实是Beautilf Soup。

如果您想继续使用正则表达式，可以尝试使用negative lookbehind来避免"所占据的任何内容。风险自负。