我有一个现有的xml文件,其中包含以下格式的数据。前三个代码字符决定了同一个组。
<Subjects>
<subject>
<code>ANT001000</code>
<literal>ANTIQUES / Americana</literal>
</subject>
<subject>
<code>ANT002000</code>
<literal>ANTIQUES / Art</literal>
</subject>
<subject>
<code>CKB100000</code>
<literal>COOKING / Beverages / General</literal>
</subject>
<subject>
<code>CKB006000</code>
<literal>COOKING / Beverages / Bartending</literal>
</subject>
</Subjects>
我需要将其转换为如下所示:
<node name="Antiques" id="1">
<node name="Americana" id="2" />
<node name="Art" id="3" />
</node>
<node name="Cooking" id="4">
<node name="Beverages " id="6" />
<node name="General" id="7" />
<node name="Bartending" id="8" />
</node>
</node>
我尝试了几种方法,但无法使其发挥作用。任何想法将不胜感激。
由于
答案 0 :(得分:1)
我建议在几次传递中这样做:
第一遍将标记每个literal
的{{1}}元素中列出的类别,并为每个元素创建一个subject
节点。在给定的示例中,这将导致:
category
下一步将选择所有顶级类别(即具有空@path属性的类别):
<category path="">ANTIQUES</category>
<category path="ANTIQUES/">Americana</category>
<category path="">ANTIQUES</category>
<category path="ANTIQUES/">Art</category>
<category path="">COOKING</category>
<category path="COOKING/">Beverages</category>
<category path="COOKING/Beverages/">General</category>
<category path="">COOKING</category>
<category path="COOKING/">Beverages</category>
<category path="COOKING/Beverages/">Bartending</category>
并进一步减少这一点,仅包含不同的值:
<category path="">ANTIQUES</category>
<category path="">ANTIQUES</category>
<category path="">COOKING</category>
<category path="">COOKING</category>
现在我们终于有一个不错的起点,我们可以将模板应用到每个这样的类别:
<category path="">ANTIQUES</category>
<category path="">COOKING</category>
其中<xsl:template match="category">
<node name="{.}" id="{generate-id()}">
<xsl:apply-templates select="$child-categories"/>
</node>
</xsl:template>
代表一个表达式,选择其@path属性与当前@path和当前值的串联相匹配的类别。
我正在使用每个类别的完整路径,以防止在类别名称在分支中不唯一的情况下出现误报匹配。
作为一个概念验证,我编写了以下样式表,它使用了一些EXSLT扩展函数,即:exsl:node-set(),str:tokenize()和set:distinct():
XSLT 1.0 + EXSLT
$child-categories
在支持所有这些扩展功能(libxslt)的处理器上运行,结果是:
<xsl:stylesheet version="1.0"
xmlns:xsl="http://www.w3.org/1999/XSL/Transform"
xmlns:exsl="http://exslt.org/common"
xmlns:set="http://exslt.org/sets"
xmlns:str="http://exslt.org/strings"
extension-element-prefixes="exsl set str">
<xsl:output method="xml" version="1.0" encoding="UTF-8" indent="yes"/>
<!-- first-pass -->
<xsl:variable name="categories">
<xsl:for-each select="/Subjects/subject">
<xsl:variable name="steps" select="str:tokenize(literal, ' / ')" />
<xsl:for-each select="$steps" >
<category>
<xsl:attribute name="path">
<xsl:for-each select="preceding-sibling::token" >
<xsl:value-of select="concat(., '/')" />
</xsl:for-each>
</xsl:attribute>
<xsl:value-of select="." />
</category>
</xsl:for-each>
</xsl:for-each>
</xsl:variable>
<xsl:variable name="category-set" select="exsl:node-set($categories)/category" />
<xsl:template match="/">
<!-- output-->
<nodes>
<xsl:apply-templates select="set:distinct($category-set[not(string(@path))])"/>
</nodes>
</xsl:template>
<xsl:template match="category">
<node name="{.}" id="{generate-id()}">
<xsl:apply-templates select="set:distinct($category-set[@path=concat(current()/@path, current(), '/')])"/>
</node>
</xsl:template>
</xsl:stylesheet>