使用xslt过滤大型XML文件,子项包含文本

时间:2015-09-30 10:19:15

标签: xml xslt xml-parsing

我有一个大型XML文件(20 MB),我想通过仅过滤相关元素来缩小它。对于过滤,我需要获得元素“Allterms”包含单词“Energy”的节点。

XML源代码如下:

<?xml version="1.0" encoding="UTF-8" ?>
<nodes>
  <node>
    <Titel>The title here</Titel>
    <Allterms>Term1; Term2</Allterms>
    <Shorttext>&amp;lt;div&amp;gt;HTML text &amp;lt;/div&amp;gt;</Shorttext>
    <Nid>3433333</Nid>
    <Year>2015</Year>
  </node>
  <node>
    <Titel>The title here</Titel>
    <Allterms>Term1; Term2; Energy</Allterms>
    <Shorttext>&amp;lt;div&amp;gt;HTML text &amp;lt;/div&amp;gt;</Shorttext>
    <Nid>2211338</Nid>
    <Year>2014</Year>
  </node>
</nodes>

我想用XSLT创建相同的XML,但新XML应该只有<node>,其中<Allterms>包含单词“Energy”。

我找到了例子并尝试了它们,但它们似乎不起作用:
  - test =“contains(Allterms,'Energy')
  - 还匹配=“nodes / node [contains(Allterms,'Energy')]

A&GT;我的XSLT应如何获得所需的结果?
B个我是否将Internet Explorer用于XSLT和20 MB XML以获取较小的过滤XML?还是有更好的工具?

谢谢!

3 个答案:

答案 0 :(得分:0)

使用XSLT样式表

<xsl:stylesheet
  xmlns:xsl="http://www.w3.org/1999/XSL/Transform"
  version="1.0">

<xsl:template match="@* | node()">
  <xsl:copy>
    <xsl:apply-templates select="@* | node()"/>
  </xsl:copy>
</xsl:template>

<xsl:template match="node[not(contains(Allterms, 'Energy'))]"/>

</xsl:stylesheet>

要使用XSLT将XML转换为XML,我建议使用XML IDE或编辑器(如oXygen,Stylus Studio,Altova XMLSpy或XSLT插件)到您喜欢的编程编辑器或IDE或任何可以从命令运行的XSLT处理器线。

答案 1 :(得分:0)

Martin的解决方案是正确和一般的,但这个很简单,我可能会把它写成

<xsl:stylesheet
  xmlns:xsl="http://www.w3.org/1999/XSL/Transform"
  version="1.0">

<xsl:template match="/">
  <nodes>
   <xsl:copy-of select="/*/node[contains(Allterms, 'Energy')]"/> 
  </nodes>
</xsl:template>

</xsl:stylesheet>

事实上当问题很简单的时候我常常更喜欢XQuery,它只是一个单行:

<nodes>{/*/node[contains(Allterms, 'Energy')]}</nodes>

答案 2 :(得分:-1)

A) 在要使用contains测试文本节点的情况下,始终具体和状态。 (否则,通常不会起作用)。试试这个:

<?xml version="1.0" encoding="UTF-8"?>
<xsl:stylesheet version="1.0" xmlns:xs="http://www.w3.org/2001/XMLSchema"
    xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
    <xsl:output method="xml"/>

    <xsl:template match="node">
        <xsl:if test="Allterms[descendant::text()[contains(., 'Energy')]]">
            <xsl:copy-of select="."/>
        </xsl:if>
    </xsl:template>

</xsl:stylesheet>

<xsl:if test="Allterms[descendant::text()[contains(., 'Energy')]]">的作用是:测试Allterms中是否至少有一个包含字符串'Engergy'的文本节点。编辑:即使您稍后决定将“能量”包装在另一个元素中(这是我的项目发生了很多),这样做的好处也会有效。

至于B)你可能想看一下Oxygen XML Editor。它是一个非常强大的工具,并附带了几个XSLT处理器。