选择除HTML标签之外的所有文本

时间:2017-01-10 10:07:35

标签: regex regex-negation

试图解决这个问题一段时间后,碰到了这个(<[^>]*>)帮助我选择所有html标签,我的目标是使用正则表达式来帮助我选择除HTML标签以外的任何东西..我试图否定这个但无法弄清楚..

提供帮助

这是一个例子,所以在总结中我想选择除html标签之外的所有标签..

<br>
<font size="2" face="Arial">&nbsp Bla Bla Bla</font>
<br>
<font size="2" face="Arial">More Bla Bla Bla</font> <br>
<br>Some more bla bla bla<br>
<br>

1 个答案:

答案 0 :(得分:1)

以下应该工作

(?<=>)[^<>]+(?=<)

或者如果您只想在开始和结束标记之间使用文本

 (?<=>)[^<>]+(?=(<\/))

但第二个在<br>Some more bla bla bla<br>

失败

&#34;&LT;&#34;和&#34;&gt;&#34;在你的字符串里面几乎可以搞每个正则表达式。

你应该使用Dom-Parser而不是Regex