Question

我需要创建一个提供给服务的HTML页面的数据索引，基本上抓取它们上的所有文本并将它们放入一个字符串中以进入存储系统。

如果这是基于GUI的，我只需在HTML页面上按Ctrl + A，复制它，然后转到记事本和Ctrl + V. Simples。如果我可以通过良好的旧点来点击，那么肯定必须有一种方法以编程方式进行，但我很难找到任何有用的东西。

正在使用System.Windows.Controls.WebBrowser类加载有问题的HTML文档进行渲染，所以我想知道它是否有可能从那里获取数据？

我会继续打猎，但任何指针都会非常感激。

注意：我们不想要HTML源代码，而且除非我们绝对需要，否则也不必解析所有源代码来获取文本。

Answer 1

如果我正确理解您的问题，您将需要做一些工作来获取数据。

WebBrowser browser=new WebBrowser();  // This is what you have
HtmlDocument doc = browser.Document;  // This gives you the browser contents
String content = 
    (((mshtml.HTMLDocumentClass)(doc.DomDocument)).documentElement).innerText;

最后一行是浏览器呈现内容的视图。

Answer 2

This看起来可能非常有帮助。

如何从HTML文档复制所有数据并使用C＃将其保存到字符串

2 个答案: