XPath如何从html文档中检索表格单元格的值

时间:2011-05-09 00:31:19

标签: java html xpath jtidy

我有一个html文档,文档中的某个地方位于表格下方,我可以获取表格行和java DOM对象。我不清楚的是,当值是字符串时,以及当它是二进制资源时,如何提取表格单元格的值?

我使用的代码如下:

  XPath xpath;
   XPathExpression expr;
   NodeList nodes=null;
   // Use XPath to obtain whatever you want from the (X)HTML
   try{

      xpath = XPathFactory.newInstance().newXPath();
      //<table class="data">

      NodeList list = doc.getElementsByTagName("table");
     // Node node = list.item(0); 
     //System.out.println(node.getTextContent());
    //String textContent=node.getTextContent();

    expr = xpath.compile("//table/tr/td");
    nodes = (NodeList)expr.evaluate(doc, XPathConstants.NODESET);

和loopiong一样:

     for (int i = 0; i < nodes.getLength(); i++) {

       Node ln = list.item(i);
       String lnText=ln.toString();
       NodeList rowElements=ln.getChildNodes();
       Node one=rowElements.item(0);

       String oneText=one.toString();
       String nodeName=one.getNodeName();
       String valOne = one.getNodeValue();

但我没有看到表中的值。

 <table class="data">
 <tr><td>ImageName1</td><td width="50"></td><td><img src="/images/036000291452" alt="036000291452" /></td></tr>
 <tr><td>ImageName2</td><td width="50"></td><td><img src="/images/36000291452" alt="36000291452" /></td></tr>
 <tr><td>Description</td><td></td><td>Time Magazine</td></tr>
 <tr><td>Size/Weight</td><td></td><td>14 Issues</td></tr>
 <tr><td>Issuing Country</td><td></td><td>United States</td></tr>
  </table>

2 个答案:

答案 0 :(得分:1)

此XPath表达式

/*/tr[1]/td[1]

选择td元素(在无命名空间中),它是所提供的XML文档的顶部元素(tr)的第一个table子元素的第一个子元素。

XPath表达式

/*/tr[1]/td[2]

选择td元素(在没有名称空间中),它是所提供的XML文档的顶部元素(tr)的第一个table子元素的第二个子元素。

一般

/*/tr[$m]/td[$n]

选择td元素(在无名称空间中),该元素是顶部元素$n - $m子元素的tr个子元素({{1提供的XML文档。只需将table$m替换为所需的整数值。

您可以使用标准XPath函数 string() 来获取字符串值:

$n

计算string(/*/tr[$m]/td[$n]) 元素的字符串值(在没有命名空间中),该元素是td - $n个孩子的$m个孩子提供的XML文档的元素(tr)。

答案 1 :(得分:-1)

使用类似“string(// td)”的路径来获取每个单元格的字符串内容。对于链接资源,您需要使用“// td / img / @src”之类的内容来获取URL,然后将它们相对于源URL进行规范化,并从网络中获取结果URL。