从HTTP请求中删除HTML节点

时间:2016-06-08 01:12:17

标签: c# html

我有一些HTML代码存储在字符串变量中,由HttpWebRequest

生成
<html>
  <head>
    <div>Lots of scripts and libraries</div>
  </head>
  <body>
    <div>Some very useful data</div>
  </body>
  <footer>
    <div>Not interesting struff</div>
  </footer>
<html>

如何删除所有不一致的节点并进入此处:

<body>
  <div>Some very useful data</div>
</body>

1 个答案:

答案 0 :(得分:3)

最简单的方法是使用HtmlAgilityPack来抓取body代码。

var document = new HtmlAgilityPack.HtmlDocument();
document.LoadHtml(html);

HtmlNode body = document.DocumentNode.SelectSingleNode("//body");

从那里,您可以使用HtmlAgilityPack进一步解析body节点以获取更多详细信息。