从html字符串中删除无效/错误放置的标记

时间:2015-10-11 09:56:21

标签: c# html string

我想知道是否有一种好的(或足够好的)方法从C#中的HTML字符串中删除无效或错误放置的HTML标记?

示例1:<div> </div> </div>应更改为<div> </div>
示例2:<div> </section> </div>应更改为<div> </div>

基本上,转换后的html字符串应该是W3C验证标记。我知道这可能有点困难,也许有一个图书馆可以很好地完成这项工作?

谢谢!

2 个答案:

答案 0 :(得分:0)

我建议使用HTMLTidy。

由于您正在使用C#,因此有tidy.net项目。我认为你可以在C#代码中引用和使用dll。

或者,您可以使用HTMLTidy的命令行内容。

答案 1 :(得分:0)

我最终修复了生成无效HTML字符串的根问题。在这种情况下,如果可能的话,解决主要问题比解决症状要好得多。