使用xmlUnit进行比较时忽略多次出现的标记

时间:2015-07-22 05:47:32

标签: regex xml xmlunit

我有一个XML文件,如下所示。

预期的XML

<doc>
<tag>
    <file>a.c</file>
    <line>10</line>
    <type>c</type>
<tag>
<tag>
    <file>b.h</file>
    <line>14</line>
    <type>h</type>
<tag>
<tag>
    <file>d.he</file>
    <line>49</line>
    <type>he</type>
<tag>
</doc>

现在用于测试的XML

<doc>
<tag>
    <file>a1.c</file>
    <line>10</line>
    <type>c</type>
<tag>
<tag>
    <file>b1.h</file>
    <line>14</line>
    <type>h</type>
<tag>
<tag>
    <file>d1.he</file>
    <line>49</line>
    <type>he</type>
<tag>
</doc>

我想将此文件与另一个具有相同结构的XML文件进行比较。

我正在使用xmlUnit进行比较。在比较时我想忽略XML标记<file>

以下是我写的比较代码

public static Diff compareXML(String expXMLPath, String genXMLPath)
        throws IOException, SAXException {
    XMLUnit.setIgnoreWhitespace(true);
    XMLUnit.setIgnoreAttributeOrder(true);
    final List<String> ignorableXPathsRegex = new ArrayList<String>();// list of regular expressions that custom difference listener used during xml 
    //comparison                                                                                
    ignorableXPathsRegex
            .add("\\/doc\\[1\\]\\/tag\\[1\\]\\/file\\[1\\]\\/text()");        
    Diff diff = null;
    try(FileInputStream fileStream1 = new FileInputStream(expXMLPath)) {
        try(FileInputStream fileStream2 = new FileInputStream(genXMLPath)) {
            InputSource inputSource1 = new InputSource(fileStream1);
            InputSource inputSource2 = new InputSource(fileStream2);
            diff = new Diff(inputSource1, inputSource2);
            RegDiffListener ignorableElementsListener = new RegDiffListener(
                    ignorableXPathsRegex);
            diff.overrideDifferenceListener(ignorableElementsListener);
            return diff;
        }
    }                
}

如果XML文件有多个<tag>...</tag>块,则无效。我基本上需要一个正则表达式,忽略<file>

下的所有<doc><tag>标记

我希望通过忽略文件标记的值来比较预期XML和测试XML以显示两者相同,因此diff.similar()应该返回true

请建议如何操作。

1 个答案:

答案 0 :(得分:0)

我找到了解决方案。

ignorableXPathsRegex .add("\\/doc\[1\]\\/tag\[1\]\\/file\[1\]\\/text()");

告诉我只检查第一个标签。

我们应该使用

ignorableXPathsRegex .add("\\/doc\[1\]\\/tag\[\\d+\]\\/file\[1\]\\/text()");

忽略所有<file>

中的所有<tag>