以编程方式删除所有HTML和内联格式

时间:2009-07-22 19:54:07

标签: asp.net css

我已经接管了一个代码库,我必须阅读这些由microsoft字词生成的html文件,我认为它有各种糟糕的内联格式。

无论如何都要解析所有错误的内联格式,只是从这个流中获取文本。我基本上想要一个编程的净化器,所以我可以应用一些明智的CSS

2 个答案:

答案 0 :(得分:0)

你应该使用HTML Tidy - 在清理HTML时它是无关紧要的。有article on DevX that describes how to do it from .NET

答案 1 :(得分:0)

最后我写了一个小类,做了一堆查找和替换。不漂亮,但它有效。