使用Html Agility Pack提取表

时间:2012-07-10 09:59:54

标签: html vb.net web-scraping html-agility-pack

我正在尝试使用Html Agility Pack从网页中提取表格。到目前为止,我已经设法用它做了一些进展。到目前为止,这是我的代码

    Dim web As New HtmlAgilityPack.HtmlWeb()
    Dim htmlDoc As HtmlAgilityPack.HtmlDocument = web.Load("--Website url--")
    Dim html As String = htmlDoc.DocumentNode.OuterHtml

    Dim tabletag = htmlDoc.DocumentNode.SelectNodes("//table")

基本上我需要找到一个包含以下html标签的表

     <table width="100%"  border="0" cellspacing="0" cellpadding="3" summary="Contains search results">

任何想法我如何将表格的搜索删除到特定的表格?

1 个答案:

答案 0 :(得分:2)

您需要确定表的内容,使其在文档中的所有表中都是唯一的。它可能是表的那些属性之一,例如summary属性使其唯一。或者,它可能是您需要查找的表中的子元素之一。由于您未指定,我将展示如何根据summary属性限制结果的示例:

Dim tabletag = htmlDoc.DocumentNode.SelectNodes("//table[@summary='Contains search results']")