Question

我在下面的HTML代码中有一个表格：

<table style="padding: 0px; border-collapse: collapse;">
    <tr>
        <td><h3>My Regional Financial Office</h3></td>
    </tr>
    <tr>
        <td>&#160;</td>
    </tr>
    <tr>
        <td><h3>My Address</h3></td>
    </tr>
    <tr>
        <td>000 Test Ave S Ste 000</td>
    </tr>
    <tr>
        <td>Golden Valley, MN 00000</td>
    </tr>
    <tr>
        <td><a href="javascript:submitForm('0000','0000000');">Get Directions</a></td>
    </tr>
    <tr>
        <td>&#160;</td>
    </tr>
</table>

如何在包含文字“我的地址？”的表格后获取下两个<tr>标签的内部文本。

Answer 1

您可以使用以下XPath：

var htmlDoc = new HtmlDocument();
htmlDoc.LoadHtml(html);
var tdOfInterests = 
        htmlDoc.DocumentNode
               .SelectNodes("//tr[td/h3[.='My Address']]/following-sibling::tr[position() <= 2]/td");
foreach (HtmlNode td in tdOfInterests)
{
    //given html input in question following code will print following 2 lines:
    //000 Test Ave S Ste 000
    //Golden Valley, MN 00000
    Console.WriteLine(td.InnerText);
}

上述XPath的关键是使用带有following-sibling过滤器的position()。

更新：

关于这个答案中使用的XPath的一点解释：

//tr[td/h3[.='My Address']]

以上部分选择<tr>元素：

子<td>元素，其子元素<h3>元素的值等于＆＃39;我的地址＆＃39;

/following-sibling::tr[position() <= 2]

下一部分从当前<tr>元素（由之前的XPath部分选择的那个）中选择位置＆lt; = 2的<tr>元素

/td

最后一部分从当前<td>元素中选择子<tr>元素

如何在HTML + HTMLAgilitypack中获取下一个2节点

1 个答案: