使用HTMLAgilityPack和XPath进行选择性屏幕抓取

时间:2013-03-14 08:56:25

标签: c# xpath html-agility-pack

[这个问题的亲属住在:Screen scraping with htmlAgilityPack and XPath]

我有一些要解析的HTML,其外观如下:

...
<tr>
<td><a href="" title="">Text Data here (1)</a></td>
<td>Text Data here(2)</td>
<td>Text Data here(3)</td>
<td>Text Data here(4)</td>
<td>Text Data here(5)</td>
<td>Text Data here(6)</td>
<td><a href="link here {1}" class="image"><img alt="" src="" /></a></td>
</tr>
<tr>
<td><a href="" title="">Text Data here (1)</a></td>
<td>Text Data here(2)</td>
<td>Text Data here(3)</td>
<td>Text Data here(4)</td>
<td>Text Data here(5)</td>
<td>Text Data here(6)</td>
<td><a href="link here {1}" class="image"><img alt="" src="" /></a></td>
</tr>
...

我正在寻找一种方法,我可以在有意义的块中解析它,但我希望有前两个td数据和最后两个td数据的选择性数据:

(1),(2),(6),{1} CRLF
(1),(2),(6),{1} CRLF
等等

我尝试了两种方法: 方式1:

var dataList = currentDoc.DocumentNode.Descendants("tr")
            .Select
             (
              tr => tr.Descendants("td").Select(td => td.InnerText).ToList()
             ).ToList();

它会获取tds的内部文本,但无法获取链接{1}。在这里,创建一个包含大量列表的列表。我可以使用嵌套的foreach来管理它。

方式2:

var dataList = currentDoc.DocumentNode
           .SelectNodes("//tr//td//text()|//tr//td//a//@href");

它确实为我提供了链接{1}和所有数据,但它变得无组织。在这里,所有数据都存在于大块中。因为,一个tr中的数据是相对的,我现在松开了那个关系。

那么,我怎样才能得到我感兴趣的数据,只有前两列和最后两列数据?

1 个答案:

答案 0 :(得分:0)

以下代码将选择前两个<td>数据和最后两个<td>个节点数据:

html.DocumentNode.Descendants("tr")
    .Select(tr => 
       from td in tr.SelectNodes("td[position() < 3 or position() > last() - 2]")
       let a = td.SelectSingleNode("a[@href!='']")
       select a == null ? td.InnerText : a.Attributes["href"].Value);

此xpath按位置过滤节点:

td[position() < 3 or position() > last() - 2]