xpath多标签选择

时间:2011-06-30 06:26:25

标签: java xml xpath xml-parsing

对于给定的XML,我如何使用xpath选择c,d,g,h(这将是b中不是j的子标签)?

XML

<a>
 <b>
  <c>select me</c>
  <d>select me</d>
  <e>do not select me</e>
  <f>
    <g>select me</g>
    <h>select me</h>
  </f>
 </b>

 <j>
  <c>select me</c>
  <d>select me</d>
  <e>do not select me</e>
  <f>
    <g>select me</g>
    <h>select me</h>
  </f>
 </j>
</a>

我想过使用以下来获取结果,但它没有给我g,h值

xpath.compile("//a/b/*[self::c or self::d or self::f/text()");

我用的java代码

import org.w3c.dom.*;
import javax.xml.xpath.*;
import javax.xml.parsers.*;
import java.io.IOException;
import org.xml.sax.SAXException;

 public class XPathDemo {

   public static void main(String[] args) 
   throws ParserConfigurationException,SAXException,IOException,PathExpressionException {

   DocumentBuilderFactory domFactory = 
   DocumentBuilderFactory.newInstance();
   domFactory.setNamespaceAware(true); 
   DocumentBuilder builder = domFactory.newDocumentBuilder();
   Document doc = builder.parse("test.xml");
   XPath xpath = XPathFactory.newInstance().newXPath();

   XPathExpression expr = xpath.compile("//a/b/*[self::c or self::d or self::f]/text()");

  Object result = expr.evaluate(doc, XPathConstants.NODESET);
  NodeList nodes = (NodeList) result;
    for (int i = 0; i < nodes.getLength(); i++) {
        System.out.println(nodes.item(i).getNodeValue()); 
   }
}

}

任何人都可以帮我吗?

非常感谢!!!

3 个答案:

答案 0 :(得分:7)

如果要选择所有c,d,g,h节点,请使用此xpath:

"//c|//d|//g|//h"

如果要指定根目录的完整路径,请使用此选项:

"/a/b/c|/a/b/d|/a/b/f/g|/a/b/f/h"

或者如果你想要所有c,d,g或h,它们都在b:

之内
"//b//c|//b//d|//b//g|//b//h"

此外,在您的代码中:使用nodes.item(i).getTextContent()而不是GetNodeValue。

答案 1 :(得分:3)

  

如何使用 xpath 选择c,d,g,h(b不是j的子标签)?

XPath 2.0

"/a/b//*[matches(name(),'^c$|^d$|^g$|^h$')]"

要保持初始位置路径, XPath 1.0 应为:

"/a/b//*[name()='c' 
  or name()='d' 
  or name()='g' 
  or name()='h']"

或者,在您使用轴之后:

 "/a/b//*[self::c 
  or self::d 
  or self::g 
  or self::h]"

通过附加到text()上方的位置路径,您将从每个相关标记中获取文本节点。

PS:@fiver给出的解决方案应改为/a/b/c|/a/b/d|/a/b/f/g|/a/b/f/h

答案 2 :(得分:3)

使用

 //a/b/*[not(self::e or self::f)]
|
 //a/b/*/*[self::g or self::h]

如果您完全了解XML文档的结构,那么//a/b可以拥有的唯一曾孙子{/ 1}}和/或{{ 1}},然后可以简化为:

g

在XPath 2.0中,这可以写得更简单

h