用于将html标记内的文本划分为单词的正则表达式

时间:2012-05-27 18:30:10

标签: regex

有没有人知道如何使用RegEx将html标签(h1-h6,a,b,i,br)中的文本划分为“单词”?例如,

输入

<h4>TEST</h4> This sentence <br/> is <b><i>test</i></b>

输出:

“单词”的结果列表:

<h4>TEST</h4>
This
sentence
<br/>
is 
<b> <i>test</i></b>

1 个答案:

答案 0 :(得分:0)

我认为要做到这一点,你需要首先用正则表达式解析html,正则表达式只是不够复杂。

我认为您需要使用解析器(在您选择的平台中)才能完成您的项目。