Htmlnode集合和解析

时间:2009-10-08 06:05:59

标签: html parsing html-agility-pack

我正在尝试提取网页中包含的文字。所以我正在使用第三个Pary工具Html Agility Pack。他们提到了:

HtmlWeb htmlWeb = new HtmlWeb();
HtmlDocument doc = htmlWeb.Load("http://www.msn.com/");

HtmlNodeCollection links = doc.DocumentNode.SelectNodes("//a[@href]");
foreach (HtmlNode link in links)
{
Response.Write(link.Attributes["href"].Value + "<br>");
}

我正在努力获取页面中包含的所有其他链接。但我想获得该页面中包含的所有文本数据。有可能吗?

2 个答案:

答案 0 :(得分:1)

是的,这是可能的。下载HtmlAgilityPack的源代码并查看Html2Txt示例项目,尤其是HtmlConvert.cs。你可以将他们的方法复制/粘贴到你正在做的任何事情上。

或者,就此而言,按原样编译示例项目并设置对二进制文件的引用。 HtmlAgilityPack.Samples.HtmlToText.Convert()将完全满足您的需求。

答案 1 :(得分:0)

你正在那里使用xpath选择器。如果选择所有节点(“*”)然后执行foreach它会起作用吗?

PS:这是什么编程语言?