html中的内部链接使用正则表达式来预定义文本集,url

时间:2017-01-18 12:34:36

标签: python html regex pattern-matching anchor

我的html文字类似于:

<p>Walmart **big data** into the DNA of Walmart.</p>
<h2><strong>Social **Big Data** Solutions</strong></h2>
<h2>Social Big Data Solutions</h2> 
<a href="big data"><strong>Social Big Data Solutions</strong></a>
<a href="big data">Social Big Data Solutions</a>
<p>Test big data</p>

我需要为所有匹配“大数据”的文本添加内部链接,即我需要使用正则表达式选择除<a>标记之外的所有html标记中的“大数据”并替换为内部链接<a href="/bigdata/">big data</a>

我有一个正则表达式(?!<a[^>]*>)(\b(?:big data)\b)(?![^<]*<\/a>)它不会匹配<a href="big data">Social Big Data Solutions</a>内的内容,但会匹配<a href="big data"><strong>Social Big Data Solutions</strong></a>内的属性,因此内部链接变为<a> <a> 1}}。

如果你们对正则表达式有任何建议,请帮忙。这是我尝试过的代码段http://regexr.com/3f3bn

0 个答案:

没有答案