我正在处理一个问题,写一个python正则表达式'不'来识别href标签中的某个模式。
我的目标是用href链接替换所有出现的DSS [a-z] {2} [0-9] {2},如下所示,但不替换href标签内发生的相同模式
目前正则表达式:
replaced = re.sub("[^http://*/s](DSS[a-z]{2}[0-9]{2})", "<a href=\"http://test.com=\\1\">\\1</a>", input)
我需要使用OR运算符将这个新的正则表达式添加到我现有的
中修改
我正在尝试使用正则表达式进行简单的操作。我希望使用正则表达式在html中的任何位置替换模式的出现,除非在<a><\a>
内发生。
答案 0 :(得分:3)
在同一个句子中有正则表达式和HTML的任何问题的答案是here。
在Python中,最好的HTML解析器确实是Beautilf Soup。
如果您想继续使用正则表达式,可以尝试使用negative lookbehind来避免"
所占据的任何内容。风险自负。