我想知道是否有一种好的(或足够好的)方法从C#中的HTML字符串中删除无效或错误放置的HTML标记?
示例1:<div> </div> </div>
应更改为<div> </div>
示例2:<div> </section> </div>
应更改为<div> </div>
基本上,转换后的html字符串应该是W3C验证标记。我知道这可能有点困难,也许有一个图书馆可以很好地完成这项工作?
谢谢!
答案 0 :(得分:0)
我建议使用HTMLTidy。
由于您正在使用C#,因此有tidy.net项目。我认为你可以在C#代码中引用和使用dll。
或者,您可以使用HTMLTidy的命令行内容。
答案 1 :(得分:0)
我最终修复了生成无效HTML字符串的根问题。在这种情况下,如果可能的话,解决主要问题比解决症状要好得多。