如何获取XSD文件中未定义的所有XML元素的列表

时间:2013-11-19 11:55:51

标签: java xml validation xml-parsing xsd

我有一个XML和XSD文件,并使用SAX解析器来验证XML文件 我想找到一个未在XSD文件中定义的所有XML元素的列表,反之亦然。

的test.xml

<Records>
    <Record>
        <VendorID>Velos</VendorID>

        <PatID>M004</PatID>
        <aa></aa>
        <PatLName>LName2</PatLName>        
        <DOB>12/06/1902</DOB>
        <RecordID>R004</RecordID>   
        <ss></ss>
    </Record>
</Records>

DummyXSD.xml

<xs:schema xmlns:xs='http://www.w3.org/2001/XMLSchema'
           xmlns:xsi='http://www.w3.org/2001/XMLSchema-instance'>
  <xs:element name="Records">
    <xs:complexType>
      <xs:sequence>
        <xs:element name="Record" type='recordType'/>
      </xs:sequence>
    </xs:complexType>
  </xs:element>   

  <xs:complexType name="recordType">
    <xs:sequence>
      <xs:element name="VendorID"  type='xs:string'/>
      <xs:element name="PatID"     type='xs:string'/>      
      <xs:element name="PatLName"  type='xs:string'/>  
      <xs:element name="haveToInXml"  type='xs:string'/> 
    </xs:sequence> 
  </xs:complexType>   
</xs:schema>

Java代码:

public class XmlValidator {
 public static void main(String [] args) throws Exception{
     try{   
        SchemaFactory factory = SchemaFactory.newInstance(XMLConstants.W3C_XML_SCHEMA_NS_URI);
        Source schemaFile = new StreamSource(new File("E:/Paw/Dendrite/Dendritep/TestData/dummyXSD.xsd"));
        Schema schema = factory.newSchema(schemaFile);

        //using SAX Parser
        final SAXParserFactory saxFactory = SAXParserFactory.newInstance();
        saxFactory.setNamespaceAware(true);
        saxFactory.setSchema(schema);           
        final SAXParser saxParser = saxFactory.newSAXParser();          
        CustomErrorHandler errorHandler =new CustomErrorHandler();                              
            saxParser.parse(new File("E:/Paw/Dendrite/Dendritep/TestData/Test.xml"), errorHandler); 
     }catch(SAXParseException e){
        System.out.println("in catch"); 
        System.out.println(e.getLineNumber() +"   "+e.getColumnNumber());
        System.out.println(e);
    } 
    catch (Exception e){
        // TODO Auto-generated catch block
        e.printStackTrace();
        System.out.println(e);
    }
}
}
public class CustomErrorHandler extends DefaultHandler{
    final List<SAXParseException> exceptions = new LinkedList<SAXParseException>();
    @Override
    public void error(SAXParseException e){ 
        System.out.println("In error");    
        exceptions.add(e);
        String err = e.toString();
        System.out.println(e);          
    }   
}

错误讯息:

org.xml.sax.SAXParseException; systemId: file:/C:/Documents%20and%20Settings/Rakesh%20Kumar/Desktop/Stack/Test.xml; lineNumber: 7; columnNumber: 7; cvc-complex-type.2.4.a: Invalid content was found starting with element 'aa'. One of '{PatLName}' is expected.  

如何获取XSD文件中未定义的所有元素?

此示例输出仅显示aa元素,但{X}中未定义ss元素。如何获取XSD中缺少的所有元素的列表,反之亦然?

1 个答案:

答案 0 :(得分:0)

要确定XML文档中未出现在XSD中的所有元素,您的计划是利用验证。虽然这可能起初似乎是一种合理的方法,但问题是当遇到每个错误时,尝试从解析错误中恢复变得越来越复杂。因此,默认情况是在第一次严重错误后暂停。

您可能会尝试将解析器配置为在遇到错误后继续。例如,Xerces2-J有一个http://apache.org/xml/features/continue-after-fatal-error feature,它会在致命错误后尝试继续解析。你可能应该留意他们的警告,不过那是

  

此功能设置为true时解析器的行为是   的未确定!因此,请谨慎使用此功能,因为解析器可能陷入无限循环或更糟糕。

重新检查需求和方法可能是有意义的。如果只需要比较原始元素列表,也许您可​​以通过解析XML文档来创建这样的列表(对于元素)和XSD(用于xs:element/@name属性)分开,然后比较列表。但是你的要求在这里发挥作用。例如,这里只需要考虑几个问题:

  • 元素外观而不是位置/使用是否重要?
  • 您是否必须处理XSD中的xs:importxs:include语句?
  • 您可以使用XSLT,还是必须使用SAX或其他方式来构建和比较元素列表?

最后,如果您的实际目标只是根据XSD使XML文档有效,那么通常的周期是修复遇到的每个错误并重新验证。实际上,如果以这种方式运行,预先没有一套完整的错误就不会成为问题。