一个正则表达式,用于分隔由html标记包围的文本和文本

时间:2017-06-13 09:04:47

标签: java regex

我有那种字符串:

 ____<b> <i> Hi</i> </b> my name is <i>Henry</i> and i'm very <span style=\"background-color: rgb(102, 102, 153);\">stylish</span>

我正在寻找一种将简单文本和文本与HTML标记分开的模式,在我需要的例子中:

____
<b> <i> Hi</i> </b>
 my name is 
<i>Henry</i>
 and i'm very 
<span style=\"background-color: rgb(102, 102, 153);\">stylish</span>

我尝试过这种模式:

"<[^>]*>][^</]*[\\s]*[<[^>]*>]|[^<[^>]*>][^</]*[\\s]*[^<[^>]*>]"

但是只有当没有标记相互跟随时,他才会工作

1 个答案:

答案 0 :(得分:0)

好的,我找到了解决方案:

"<[^/]*[^>]*>{1,}[^</]*[\\s]*<[/]{1}[^>]*>{1,}|[^<[^>]*>][^</]*[\\s]*[^<[^>]*>]");