我已经接管了一个代码库,我必须阅读这些由microsoft字词生成的html文件,我认为它有各种糟糕的内联格式。
无论如何都要解析所有错误的内联格式,只是从这个流中获取文本。我基本上想要一个编程的净化器,所以我可以应用一些明智的CSS
答案 0 :(得分:0)
你应该使用HTML Tidy - 在清理HTML时它是无关紧要的。有article on DevX that describes how to do it from .NET。
答案 1 :(得分:0)
最后我写了一个小类,做了一堆查找和替换。不漂亮,但它有效。