我正在创建一个通用应用,需要能够从HTML页面中提取纯文本。我知道在WPF中你可以利用IHTMLDocument2接口来实现这一点。
IHTMLDocument2 document = webBrowser1.Document as IHTMLDocument2;
string data = document.body.innerText;
Windows Runtime有类似内容吗?
谢谢,
答案 0 :(得分:1)
我会使用HtmlAgilityPack之类的东西。然后,HTML可以通过Linq查询。然后你可以做这样的事情:
HtmlDocument htmlDoc = webBrowser1.Document as HtmlDocument;
string innerText = htmlDoc.DocumentNode.Descendants("body").Single().InnerText;
您还可以分别通过LoadHtml
和Load
将字符串或流加载为HTML。