Question

我正在尝试提取网页中包含的文字。所以我正在使用第三个Pary工具Html Agility Pack。他们提到了：

HtmlWeb htmlWeb = new HtmlWeb();
HtmlDocument doc = htmlWeb.Load("http://www.msn.com/");

HtmlNodeCollection links = doc.DocumentNode.SelectNodes("//a[@href]");
foreach (HtmlNode link in links)
{
Response.Write(link.Attributes["href"].Value + "<br>");
}

我正在努力获取页面中包含的所有其他链接。但我想获得该页面中包含的所有文本数据。有可能吗？

Answer 1

是的，这是可能的。下载HtmlAgilityPack的源代码并查看Html2Txt示例项目，尤其是HtmlConvert.cs。你可以将他们的方法复制/粘贴到你正在做的任何事情上。

或者，就此而言，按原样编译示例项目并设置对二进制文件的引用。 HtmlAgilityPack.Samples.HtmlToText.Convert（）将完全满足您的需求。

Answer 2

你正在那里使用xpath选择器。如果选择所有节点（“*”）然后执行foreach它会起作用吗？

PS：这是什么编程语言？

Htmlnode集合和解析

2 个答案: