结合Kayessian交叉口和Muenchian分组

时间:2014-08-31 20:43:56

标签: xslt xslt-1.0

我有一个非常扁平的文档,其中包含基于Heading项后位置的隐含元素组:

<Document>
    <Body>
        ...
        <Heading>Section 1</Heading>
        <Item Id="1.1">Alpha</Item>
        <Item Id="1.1">Bravo</Item>
        ...
        <Heading>Section 2</Heading>
        <Item Id="2.1">Alpha</Item>
        <Item Id="2.1">Bravo</Item>
        ...
    </Body>
</Document>

在本文档中,我想提取组,但也要过滤每个组中的项目以获取具有给定标识符的第一个项目。例如,如果有两个ID为“1.1”的项目,则输出中只有第一个项目。我打算进行额外的处理,将重复项包括为第一项的子项。

为了实现这种分组,我使用的是Muenchian分组,其中组的密钥是标识符值:

<xsl:key
    name="ItemsById"
    match="/Document/Body/Item"
    use="@Id"/>

这很有用,除了有许多Item元素被定义为恰好使用相同标识符并在密钥中匹配的节点集中结束的示例。

由于我关心的文档中间有一个范围,我使用Kayessian交集方法将节点集限制为我感兴趣的文档中的部分:

<xsl:variable
    name="section"
    select="(/Document/Body/Heading[text() = 'Example']
        /following-sibling::*[2]/following-sibling::*)[
    count(. | /Document/Body/Heading[text() = 'Appendix B']
        /preceding-sibling::*) 
    = count(/Document/Body/Heading[text() = 'Appendix B']
        /preceding-sibling::*)
    ]" />

此节点集是两个节点集的交集:Heading“第1节”之后的所有元素(包括标题本身)和Heading之前的所有元素“附录B ”

这与我关心的元素匹配,但由于密钥未经过滤,因此给定标识符的“first”值有时在此节点集之外。我已经尝试在密钥中使用变量,但我发现密钥中的匹配存在许多限制,阻止了变量的使用。

以下是完整的源文档:

<Document>
    <Body>

        <Heading>Preamble</Heading>
        <Para>
            Lorem ipsum dolor sit amet, consectetur
            adipiscing elit, sed do eiusmod tempor incididunt
            ut labore et dolore magna aliqua.
        </Para>

        <Heading>Example</Heading>
        <Item Id="1.1">Example Alpha</Item>
        <Item Id="1.1">Example Bravo</Item>

        <Heading>Section 1</Heading>
        <Item Id="1.1">Alpha</Item>
        <Item Id="1.1">Bravo</Item>
        <Item Id="1.2">Charlie</Item>
        <Item Id="1.3">Delta</Item>
        <Item Id="1.3">Echo</Item>
        <Item Id="1.4">Foxtrot</Item>

        <Heading>Section 2</Heading>
        <Item Id="2.1">Alpha</Item>
        <Item Id="2.1">Bravo</Item>
        <Item Id="2.2">Charlie</Item>
        <Item Id="2.3">Delta</Item>
        <Item Id="2.3">Echo</Item>
        <Item Id="2.4">Foxtrot</Item>

        <Heading>Appendix A</Heading>
        <Item Id="A.1">Alpha</Item>
        <Item Id="A.1">Bravo</Item>
        <Item Id="A.2">Charlie</Item>
        <Item Id="A.3">Delta</Item>
        <Item Id="A.3">Echo</Item>
        <Item Id="A.4">Foxtrot</Item>

        <Heading>Appendix B</Heading>
        <Para>
            Lorem ipsum dolor sit amet, consectetur
            adipiscing elit, sed do eiusmod tempor incididunt
            ut labore et dolore magna aliqua.
        </Para>

    </Body>
</Document>

我正在应用以下样式表:

<xsl:stylesheet
    version="1.0"
    xmlns:xsl="http://www.w3.org/1999/XSL/Transform">

    <xsl:output method="xml" indent="yes"/>

    <xsl:template match="@* | node()">
        <xsl:copy>
            <xsl:apply-templates select="@* | node()"/>
        </xsl:copy>
    </xsl:template>

    <!-- The node-set which covers the wanted section of elements. -->
    <xsl:variable
        name="section"
        select="(/Document/Body/Heading[text() = 'Example']
            /following-sibling::*[2]/following-sibling::*)[
        count(. | /Document/Body/Heading[text() = 'Appendix B']
            /preceding-sibling::*) 
        = count(/Document/Body/Heading[text() = 'Appendix B']
            /preceding-sibling::*)
        ]" />

    <!-- The items keyed by their ID. -->
    <xsl:key
        name="ItemsById"
        match="/Document/Body/Item"
        use="@Id"/>

    <!-- Matches the root to begin the output structure. -->
    <xsl:template match="/">
        <Document>
            <!-- Apply templates to the headings. -->
            <xsl:apply-templates select="$section[local-name() = 'Heading']" />
        </Document>
    </xsl:template>

    <xsl:template match="/Document/Body/Heading">
        <Section>
            <xsl:attribute name="Title">
                <xsl:value-of select="."/>
            </xsl:attribute>

            <xsl:variable
                name="heading"
                select="generate-id()" />

            <!-- Apply templates to the items in this set. -->
            <xsl:apply-templates
                select="$section[
                local-name() = 'Item'
                and
                generate-id() = generate-id(key('ItemsById', @Id)[1])
                and
                $heading = generate-id(preceding-sibling::Heading[1])
                ]" />
        </Section>
    </xsl:template>

</xsl:stylesheet>

这是当前的输出:

<Document>
  <Section Title="Section 1">
    <Item Id="1.2">Charlie</Item>
    <Item Id="1.3">Delta</Item>
    <Item Id="1.4">Foxtrot</Item>
  </Section>
  <Section Title="Section 2">
    <Item Id="2.1">Alpha</Item>
    <Item Id="2.2">Charlie</Item>
    <Item Id="2.3">Delta</Item>
    <Item Id="2.4">Foxtrot</Item>
  </Section>
  <Section Title="Appendix A">
    <Item Id="A.1">Alpha</Item>
    <Item Id="A.2">Charlie</Item>
    <Item Id="A.3">Delta</Item>
    <Item Id="A.4">Foxtrot</Item>
  </Section>
</Document>

问题在于第1节缺少第1.1项。

我可以尝试在我感兴趣的部分实现相同的分组吗?

1 个答案:

答案 0 :(得分:2)

这不可能(更简单)吗?例如,以下样式表:

XSLT 1.0

<xsl:stylesheet version="1.0" 
xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
<xsl:output method="xml" version="1.0" encoding="UTF-8" indent="yes"/>

<xsl:key name="item-by-heading" match="Item" use="generate-id(preceding-sibling::Heading[1])" />
<xsl:key name="item-by-id" match="Item" use="concat(generate-id(preceding-sibling::Heading[1]), '|', @Id)" />

<xsl:template match="/Document">
    <xsl:copy>
        <xsl:apply-templates select="Body/Heading"/>
    </xsl:copy>
</xsl:template>

<xsl:template match="Heading">
    <Section Title="{.}">
        <xsl:copy-of select="key('item-by-heading', generate-id())[count(. | key('item-by-id', concat(generate-id(preceding-sibling::Heading[1]), '|', @Id))[1]) = 1]"/>
    </Section>
</xsl:template> 

</xsl:stylesheet>

当应用于您的输入时,将返回:

<?xml version="1.0" encoding="UTF-8"?>
<Document>
   <Section Title="Preamble"/>
   <Section Title="Example">
      <Item Id="1.1">Example Alpha</Item>
   </Section>
   <Section Title="Section 1">
      <Item Id="1.1">Alpha</Item>
      <Item Id="1.2">Charlie</Item>
      <Item Id="1.3">Delta</Item>
      <Item Id="1.4">Foxtrot</Item>
   </Section>
   <Section Title="Section 2">
      <Item Id="2.1">Alpha</Item>
      <Item Id="2.2">Charlie</Item>
      <Item Id="2.3">Delta</Item>
      <Item Id="2.4">Foxtrot</Item>
   </Section>
   <Section Title="Appendix A">
      <Item Id="A.1">Alpha</Item>
      <Item Id="A.2">Charlie</Item>
      <Item Id="A.3">Delta</Item>
      <Item Id="A.4">Foxtrot</Item>
   </Section>
   <Section Title="Appendix B"/>
</Document>

我无法理解你如何确定要包含在输出中(或从输出中排除)的部分,但这也应该很容易。


编辑:

  

我想要的部分是第1-2节和附录A;没有其他部分   是相关的。

那么,就这样做:

<xsl:template match="/Document">
    <xsl:copy>
        <xsl:apply-templates select="Body/Heading[.='Section 1' or .='Section 2'or .='Appendix A']"/>
    </xsl:copy>
</xsl:template>

请注意,如果项目ID不是跨部分重复,那么这可能更简单。啊,但我看到它们是。这就是为什么缺少第1.1项的原因。


编辑2:

  

此节点集是两个节点集的交集:所有元素   标题“第1节”(包括标题本身)和所有标题之后   标题“附录B”之前的要素。

好的,所以:

<xsl:template match="/Document">
    <xsl:copy>
        <xsl:apply-templates select="Body/Heading[.='Section 1' or preceding-sibling::Heading[.='Section 1'] and following-sibling::Heading[.='Appendix B']]"/>
    </xsl:copy>
</xsl:template>

或者,甚至更短:

<xsl:template match="/Document">
    <xsl:copy>
        <xsl:apply-templates select="Body/Heading[not(following-sibling::Heading[.='Section 1']) and following-sibling::Heading[.='Appendix B']]"/>
    </xsl:copy>
</xsl:template>