我有很多html代码<pre> python code </pre>
,就像下面的
HTML代码:
<pre class="c1">
# regex usage
import re
re.findall(r'abc','abcde')
</pre>
python tutorial ...python regex<br>
<pre class="c2">
# regex usage
import re
re.findall(r'abc','abcde')
</pre>
我将regex
视为关键字,并将其替换为链接:<a href="link-to-regex">regex</a>
,但我不想替换标签<pre>
中的内容
输出:
<pre class="c1">
# regex usage
import re
re.findall(r'abc','abcde')
</pre>
python tutorial ...python <a href="link-to-regex">regex</a><br>
<pre class="c2">
# regex usage
import re
re.findall(r'abc','abcde')
</pre>
我这样做是使用占位符
pre_list = re.compile(r'(<pre>.+?</pre>)').findall(html_code)
# use CODE_PLACEHODER to protect code sources
for index,code in enumerate(pre_list):
html_code = html_code.replace(code, 'CODE_PLACEHOLDER_{}'.format(index))
# replace the html content here
html_code = html_code.replace('regex', '<a href="link-to-regex">regex</a>')
for index,code in enumerate(pre_list):
html_code = html_code.replace('CODE_PLACEHOLDER_{}'.format(index), code)
enter code here
更好的方法吗?
答案 0 :(得分:1)
使用正向环视断言来匹配regex
标记内不存在的字符串<pre>
。并且不要忘记启用DOTALL修饰符。
>>> import re
>>> s = """<pre>
# regex usage
import re
re.findall(r'abc','abcde')
</pre>
python tutorial ...python regex<br>
<pre>
# regex usage
import re
re.findall(r'abc','abcde')
</pre>"""
>>> m = re.sub(r'(?s)regex(?!(?:(?!<\/?pre[^<>]*>).)*<\/pre>)', r'<a href="link-to-regex">regex</a>', s)
>>> print m
<pre>
# regex usage
import re
re.findall(r'abc','abcde')
</pre>
python tutorial ...python <a href="link-to-regex">regex</a><br>
<pre>
# regex usage
import re
re.findall(r'abc','abcde')
</pre>
答案 1 :(得分:0)
regex(?=(?:((?!<pre[^>]*>|<\/pre>).)*<pre[^>]*>(?:(?!<\/pre>).)*<\/pre>)*(?:(?!<pre[^>]*>|<\/pre>).)*$)
试试这个。看看演示。