Question

我需要使用一种方法，通过该方法，我可以使用C＃将HTML字符串拆分为其中的元素（标记，内容，结束标记等）

例如

之类的字符串

<p><strong><em>BOLDANDITALIC </em></strong>normal <em> </em><strong><em> </em>BOLD </strong><em>italic </em></p>

我的目标是能够获得结果

- <p>
- <strong>
- <em>
- BOLDANDITALIC 
- </em>

等...

我无法使用任何开源材料，例如HTML Agility Pack，因此我尝试使用Regex尝试将其分解。任何人都可以伸出援手吗？

我知道正则表达式不是解析HTML的充分方法，但是我将要解析的HTML是非常基本的。我只预期标签

和格式化标签。没什么大不了的。

Answer 1

您可以尝试使用此功能：(\<[\w ]+\>) 编辑：:?((\<[\w ]+\>)|([\w ]+)|([\</\w ]+\>)) 这里：它检查文字＆lt;和＆gt;。在文字内部，它搜索一个或多个字符。

您可以使用编号组选项获取匹配的标记。

Ps：别忘了逃避角色。