在C#中使用Regex拆分HTML标记和元素

时间:2015-09-18 18:49:06

标签: c# html regex

我需要使用一种方法,通过该方法,我可以使用C#将HTML字符串拆分为其中的元素(标记,内容,结束标记等)

例如

之类的字符串
<p><strong><em>BOLDANDITALIC </em></strong>normal <em> </em><strong><em> </em>BOLD </strong><em>italic </em></p>

我的目标是能够获得结果

- <p>
- <strong>
- <em>
- BOLDANDITALIC 
- </em>

等...

我无法使用任何开源材料,例如HTML Agility Pack,因此我尝试使用Regex尝试将其分解。任何人都可以伸出援手吗?

我知道正则表达式不是解析HTML的充分方法,但是我将要解析的HTML是非常基本的。我只预期标签

和格式化标签。没什么大不了的。

1 个答案:

答案 0 :(得分:-1)

您可以尝试使用此功能:(\<[\w ]+\>) 编辑::?((\<[\w ]+\>)|([\w ]+)|([\</\w ]+\>)) 这里: 它检查文字&lt;和&gt;。 在文字内部,它搜索一个或多个字符。

您可以使用编号组选项获取匹配的标记。

Ps:别忘了逃避角色。