我正在尝试提取网页中包含的文字。所以我正在使用第三个Pary工具Html Agility Pack。他们提到了:
HtmlWeb htmlWeb = new HtmlWeb();
HtmlDocument doc = htmlWeb.Load("http://www.msn.com/");
HtmlNodeCollection links = doc.DocumentNode.SelectNodes("//a[@href]");
foreach (HtmlNode link in links)
{
Response.Write(link.Attributes["href"].Value + "<br>");
}
我正在努力获取页面中包含的所有其他链接。但我想获得该页面中包含的所有文本数据。有可能吗?
答案 0 :(得分:1)
或者,就此而言,按原样编译示例项目并设置对二进制文件的引用。 HtmlAgilityPack.Samples.HtmlToText.Convert()将完全满足您的需求。
答案 1 :(得分:0)
你正在那里使用xpath选择器。如果选择所有节点(“*”)然后执行foreach它会起作用吗?
PS:这是什么编程语言?