我需要使用一种方法,通过该方法,我可以使用C#将HTML字符串拆分为其中的元素(标记,内容,结束标记等)
例如
之类的字符串<p><strong><em>BOLDANDITALIC </em></strong>normal <em> </em><strong><em> </em>BOLD </strong><em>italic </em></p>
我的目标是能够获得结果
- <p>
- <strong>
- <em>
- BOLDANDITALIC
- </em>
等...
我无法使用任何开源材料,例如HTML Agility Pack,因此我尝试使用Regex尝试将其分解。任何人都可以伸出援手吗?
我知道正则表达式不是解析HTML的充分方法,但是我将要解析的HTML是非常基本的。我只预期标签
和格式化标签。没什么大不了的。
答案 0 :(得分:-1)
您可以尝试使用此功能:(\<[\w ]+\>)
编辑::?((\<[\w ]+\>)|([\w ]+)|([\</\w ]+\>))
这里:
它检查文字&lt;和&gt;。
在文字内部,它搜索一个或多个字符。
您可以使用编号组选项获取匹配的标记。
Ps:别忘了逃避角色。