解析HTML标记以查找特定的表行

时间:2012-06-06 16:32:43

标签: c# html-agility-pack

大家好,我设置了一个挑战,我必须通过HTML页面解析才能找到所有课程的结束日期。我正在使用HTMLAgilityPack,但这是我第一次使用它,也是设置它的网页没有类或Id,结束日期存储在Tr H4标签中。我不确定如何通过任何点击进行解析?

我的代码:

HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();
doc.Load(txtURL.Text);

sw.WriteLine("GET /academics/academic-calendar/ HTTP/1.1");
sw.WriteLine();
String response = sr.ReadToEnd();

txtHTML.Text = response;

2 个答案:

答案 0 :(得分:1)

可以查询HtmlDocument对象 - 您可以使用XPath查找遵循特定路径或其他约束的所有元素,也可以使用LINQ进行查询。

我建议下载源代码包 - 它附带了许多项目以及使用示例。

答案 1 :(得分:1)

使用XPath将允许您获得所需内容。 以下是如何从声明的html中获取所有表行的示例。

HtmlDocument htmlDocument = Markup.Parser();                                  
htmlDocument.LoadHtml(html);
htmlDocument.DocumentNode.SelectNodes("/tr");