从HTML中提取InnerText

时间:2013-05-08 08:44:01

标签: c# html asp.net-mvc html-agility-pack

我们有树

1. level 1

   1.1. level 1.1

        1.1.1. level 1.1.1

我们有该树的HTML。

我们希望提取具有级别编号的文本(级别编号= 1,文本=“级别1”,..)实现此目的的最佳方法是什么?


<ol > <li> <h3> <span >level 1</span></h3> <ol> <li> <h4> <span >level 1.1 </span></h4> <ol> <li> <h4> <span >level 1.1.1</span></h4> </li> </ol> </li> </ol> </li> </ol>

这是html。我试图使用Html Agility Pack在服务器端提取。但是我们没有达到等级数。

1 个答案:

答案 0 :(得分:0)

使用Html Agility Pack

使用它像:

 HtmlDocument doc = new HtmlDocument();
 doc.Load("file.htm");
 foreach(HtmlNode link in doc.DocumentElement.SelectNodes("//span"])
 {

 }