我尝试使用HtmlAgilityPack以下列方式解析HTML:
HtmlDocument htmlDoc = new HtmlDocument();
htmlDoc.LoadHtml(xhtmlString);
不幸的是xhtmlString包含不必要的空格和换行符,所以htmlDoc的_text现在看起来像这样:
<html xmlns=\"http://www.w3.org/1999/xhtml\">\n\t<head></head>\n\t<body>\n\n<p>Alle Auktionen<br /></p>\n\n\t</body>\n</html>
在使用身体的子元素时,这对我来说是一个问题。
删除这些不必要字符的最简单方法是什么?
HtmlAgilityPack是否提供某种功能来清除新行和标签中的HTML?
答案 0 :(得分:1)
这是文档缩进,而不是不必要的空格和换行符。
我不知道这可能是一个问题,但你不能只是替换特殊的字符,如“\ t”,“\ n”?
快速搜索我找到了Html Agility Pack: make code look neat
也许将某些属性设置为false可能会有所帮助