我有一些HTML代码存储在字符串变量中,由HttpWebRequest
:
<html>
<head>
<div>Lots of scripts and libraries</div>
</head>
<body>
<div>Some very useful data</div>
</body>
<footer>
<div>Not interesting struff</div>
</footer>
<html>
如何删除所有不一致的节点并进入此处:
<body>
<div>Some very useful data</div>
</body>
答案 0 :(得分:3)
最简单的方法是使用HtmlAgilityPack
来抓取body
代码。
var document = new HtmlAgilityPack.HtmlDocument();
document.LoadHtml(html);
HtmlNode body = document.DocumentNode.SelectSingleNode("//body");
从那里,您可以使用HtmlAgilityPack
进一步解析body
节点以获取更多详细信息。