使用HtmlAgilityPack解析时删除空格和换行符

时间:2012-01-05 13:30:23

标签: c# asp.net html-agility-pack trim

我尝试使用HtmlAgilityPack以下列方式解析HTML:

HtmlDocument htmlDoc = new HtmlDocument();
htmlDoc.LoadHtml(xhtmlString);

不幸的是xhtmlString包含不必要的空格和换行符,所以htmlDoc的_text现在看起来像这样:

<html xmlns=\"http://www.w3.org/1999/xhtml\">\n\t<head></head>\n\t<body>\n\n<p>Alle Auktionen<br /></p>\n\n\t</body>\n</html>

在使用身体的子元素时,这对我来说是一个问题。

删除这些不必要字符的最简单方法是什么?

HtmlAgilityPack是否提供某种功能来清除新行和标签中的HTML?

1 个答案:

答案 0 :(得分:1)

这是文档缩进,而不是不必要的空格和换行符。
我不知道这可能是一个问题,但你不能只是替换特殊的字符,如“\ t”,“\ n”?

快速搜索我找到了Html Agility Pack: make code look neat
也许将某些属性设置为false可能会有所帮助