Python Regex'不'识别<a></a>中的模式

时间:2011-07-13 15:36:28

标签: python regex hyperlink regex-negation

我正在处理一个问题,写一个python正则表达式'不'来识别href标签中的某个模式。

我的目标是用href链接替换所有出现的DSS [a-z] {2} [0-9] {2},如下所示,但不替换href标签内发生的相同模式

目前正则表达式:

replaced = re.sub("[^http://*/s](DSS[a-z]{2}[0-9]{2})", "<a href=\"http://test.com=\\1\">\\1</a>", input)

我需要使用OR运算符将这个新的正则表达式添加到我现有的

修改

我正在尝试使用正则表达式进行简单的操作。我希望使用正则表达式在html中的任何位置替换模式的出现,除非在<a><\a>内发生。

1 个答案:

答案 0 :(得分:3)

在同一个句子中有正则表达式和HTML的任何问题的答案是here

在Python中,最好的HTML解析器确实是Beautilf Soup

如果您想继续使用正则表达式,可以尝试使用negative lookbehind来避免"所占据的任何内容。风险自负。