如何从特定单元格中获取值C#Html-Agility-Pack

时间:2013-05-10 03:21:04

标签: c# html-parsing html-agility-pack

如何从文档第二个表中的特定位置获取值。我需要在下面的html文档中从第二个单元格向下和第三列的值。我该怎么做。

<html>
<head>
<title>Tables</title>
</head>
<body>
<table border="1">
  <tr>
    <th>Room</th>
    <th>Location</th>
  </tr>
  <tr>
    <td>Paint</td>
    <td>A4</td>
  </tr>
  <tr>
    <td>Stock</td>
    <td>B3</td>
  </tr>
  <tr>
    <td>Assy</td>
    <td>N9</td>
  </tr>
</table>
<p></p>
<table border="1">
  <tr>
    <th>Product</th>
    <th>Mat'l</th>
    <th>Weight</th>
    <th>Size</th>
  </tr>
  <tr>
    <td>Cover</td>
    <td>Plastic</td>
    <td>4</td>
    <td>16</td>
  </tr>
  <tr>
    <td>Retainer</td>
    <td>Steel</td>
    <td>12</td>
    <td>8</td>
  </tr>
  <tr>
    <td>Pin</td>
    <td>Bronze</td>
    <td>18</td>
    <td>7</td>
  </tr>
</table>
<p></p>
<table border="1">
  <tr>
    <th>Process</th>
    <th>Location</th>
    <th>Number</th>
  </tr>
  <tr>
    <td>Trim</td>
    <td>S2</td>
    <td>8</td>
  </tr>
  <tr>
    <td>Finish</td>
    <td>D2</td>
    <td>3</td>
  </tr>
</table>
</body>
</html>

谢谢!

另外......请帮助新手! 请指导我一个可以帮助我理解Html-Agility-Pack(HAP)语法的资源。我有HAP的CHM文件 - 我已经尝试使用它,我已经尝试使用VS的对象浏览器进行HAP,但此时对我来说太神秘了。

1 个答案:

答案 0 :(得分:2)

Html Agility Pack配备了一个XPATH评估程序,该评估程序遵循.NET XPATH syntax在已解析的HTML节点上。请注意,与此库一起使用的XPATH表达式要求元素和属性名称小写,与原始HTML源无关。

因此,在您的情况下,您可以使用如下表达式获取第3列,第2行,第2个表的单元格:

HtmlDocument doc = new HtmlDocument();
doc.Load(YouTestHtmlFilePath);

HtmlNode node = doc.DocumentNode.SelectSingleNode("//table[2]/tr[2]/td[3]");
Console.WriteLine(node.InnerText); // will output "4"

//table表示从root用户递归获取任何TABLE元素。 [2]表示取第二个表格。

/tr表示从当前表中获取任何TR元素。 [2]表示第2行。

/td表示从当前行获取任何TD元素。 [3]表示取第3个单元格。

你可以在这里找到好的XPATH教程:XPath Tutorial