使用xslt:analyze-string为HTML添加首字母缩略词

时间:2010-12-15 00:10:48

标签: xml xslt xslt-2.0

我想使用xslt:analyze-string为HTML文本添加首字母缩略词。 问题:在我的HTML文本中是诸如

之类的标签
<strong>some text</strong> 

被视为XML节点。当我应用xslt:analyze-string时,这些节点被转换为字符串 - 标签被剥离。同样在我的递归XSLT样式表中,已经插入的首字母缩略词也被删除了。

我的问题:是否有一个技巧可以阻止xslt:analyze-string将HTML节点转换为字符串并保留HTML标记?

这是我的例子:

样式表:

<?xml version="1.0" encoding="UTF-8"?>
<xsl:stylesheet version="2.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform" xmlns:xhtml="http://www.w3.org/1999/xhtml" xmlns="http://www.w3.org/1999/xhtml" exclude-result-prefixes="xhtml" >

    <xsl:template match="/">
        <div>
            <xsl:call-template name="insert-acronyms">
                <xsl:with-param name="text" select="/doc/div"/>
                <xsl:with-param name="acronyms" select="/doc/dictionary/acronym"/>
            </xsl:call-template>
        </div>
    </xsl:template>


    <xsl:template name="insert-acronyms">
        <xsl:param name="text" as="node()*"/>
        <xsl:param name="acronyms"/>

        <xsl:choose>
            <xsl:when test="$acronyms">
                <xsl:call-template name="insert-acronyms">
                    <xsl:with-param name="acronyms" select="$acronyms[position() &gt; 1]"/>
                    <xsl:with-param name="text">
                        <xsl:call-template name="replace-words">
                            <xsl:with-param name="text" select="$text"/>
                            <xsl:with-param name="name" select="$acronyms[1]/name"/> 
                            <xsl:with-param name="description" select="$acronyms[1]/description"/>
                        </xsl:call-template>
                    </xsl:with-param>
                </xsl:call-template>
            </xsl:when>
            <xsl:otherwise>
                <xsl:copy-of select="$text"/>
            </xsl:otherwise>
        </xsl:choose>
    </xsl:template>


    <xsl:template name="replace-words">
        <xsl:param name="text" />
        <xsl:param name="name" />
        <xsl:param name="description" />

        <xsl:analyze-string select="$text" regex="{concat('(^|\W)(', string-join($name, '|'), ')(\W|$)')}">
            <xsl:matching-substring>
                <xsl:value-of select="regex-group(1)"/>
                <xsl:element name="acronym">
                 <xsl:attribute name="title"><xsl:value-of select="$description"/></xsl:attribute>
                    <xsl:value-of select="regex-group(2)"/>
                </xsl:element>
                <xsl:value-of select="regex-group(3)"/>
            </xsl:matching-substring>
            <xsl:non-matching-substring>
                <xsl:value-of select="."/>
            </xsl:non-matching-substring>
        </xsl:analyze-string>
    </xsl:template> 

</xsl:stylesheet>

来源:

<?xml version="1.0" encoding="UTF-8"?>
<doc>
    <dictionary>

        <acronym>
            <name>WWW</name>
            <description>The World Wide Web</description>
        </acronym>

        <acronym>
            <name>HTML</name>
            <description>The HyperText Markup Language</description>
        </acronym>

    </dictionary>

    <div>
        <p>In the <strong>WWW</strong> you can find a lot of <em>HTML</em> documents.</p> 
    </div>

</doc> 

转换的结果(强和em-tags被剥离,只插入一个首字母缩略词,因为另一个被剥离了):

<?xml version="1.0" encoding="UTF-8"?>
<div>    In the WWW you can find a lot of <acronym title="The HyperText Markup Language">HTML</acronym> documents. </div>

2 个答案:

答案 0 :(得分:2)

提供的代码不必要地复杂化。主要问题是尝试一次创建一个首字母缩略词,并且不必要地尝试递归处理。

这是一个更简单,更符合逻辑的非递归解决方案

<xsl:stylesheet version="2.0"
 xmlns:xsl="http://www.w3.org/1999/XSL/Transform"
 xmlns:my="my:my"  exclude-result-prefixes="my">
 <xsl:output omit-xml-declaration="yes" indent="yes"/>
 <xsl:strip-space elements="*"/>

 <xsl:template match="node()|@*">
  <xsl:copy>
   <xsl:apply-templates select="node()|@*"/>
  </xsl:copy>
 </xsl:template>

 <xsl:template match="/*">
   <xsl:apply-templates/>
 </xsl:template>

 <xsl:template match="text()" priority="0.1">
  <xsl:sequence select=
  "my:insert-acronyms(., /*/dictionary/acronym)"/>
 </xsl:template>

  <xsl:function name="my:insert-acronyms" as="node()*">
   <xsl:param name="text" as="text()"/>
   <xsl:param name="acronyms" as="node()*"/>

   <xsl:sequence select=
    "if($acronyms)
       then my:replace-words($text, $acronyms/name)
       else $text
    "/>
 </xsl:function>

 <xsl:function name="my:replace-words" as="node()*">
  <xsl:param name="text" as="text()" />
  <xsl:param name="names" as="node()*" />

  <xsl:analyze-string select="$text" 
    regex="{concat('(^|\W)(', string-join($names, '|'), ')(\W|$)')}">
    <xsl:matching-substring>
     <xsl:value-of select="regex-group(1)"/>
     <acronym title="{$names[. eq regex-group(2)]/../description}">
      <xsl:value-of select="regex-group(2)"/>
     </acronym>
     <xsl:value-of select="regex-group(3)"/>
    </xsl:matching-substring>
    <xsl:non-matching-substring>
     <xsl:value-of select="."/>
    </xsl:non-matching-substring>
  </xsl:analyze-string>
 </xsl:function>

 <xsl:template match="dictionary"/>
</xsl:stylesheet>

在提供的XML文档上应用此转换时:

<doc>
    <dictionary>
        <acronym>
            <name>WWW</name>
            <description>The World Wide Web</description>
        </acronym>
        <acronym>
            <name>HTML</name>
            <description>The HyperText Markup Language</description>
        </acronym>
    </dictionary>
    <div>
        <p>In the <strong>WWW</strong> you can find a lot of <em>HTML</em> documents.</p>
    </div>
 </doc>

产生了想要的正确结果

<div>
   <p>In the <strong>
         <acronym title="The World Wide Web">WWW</acronym>
      </strong> you can find a lot of <em>
         <acronym title="The HyperText Markup Language">HTML</acronym>
      </em> documents.</p>
</div>

答案 1 :(得分:1)

xsl:analyze-string适用于字符串。而不是尝试应用于任何/所有节点,只需将其应用于text()节点。

尝试将样式表更改为(未经测试):

<?xml version="1.0" encoding="UTF-8"?>
<xsl:stylesheet version="2.0"
xmlns:xsl="http://www.w3.org/1999/XSL/Transform"
xmlns:xhtml="http://www.w3.org/1999/xhtml"
xmlns="http://www.w3.org/1999/xhtml"
exclude-result-prefixes="xhtml" >
<xsl:output indent="yes" />

    <xsl:template match="/">

            <xsl:apply-templates select="/doc/div" />

    </xsl:template>

    <xsl:template match="text()" priority="1">
        <xsl:call-template name="insert-acronyms">
                <xsl:with-param name="text" select="."/>
                <xsl:with-param name="acronyms" select="/doc/dictionary/acronym"/>
        </xsl:call-template>
    </xsl:template>

    <xsl:template match="@*|node()">
        <xsl:copy>
            <xsl:apply-templates select="@*|node()"/>
        </xsl:copy>
    </xsl:template>

    <xsl:template name="insert-acronyms">
        <xsl:param name="text" as="node()*"/>
        <xsl:param name="acronyms"/>

        <xsl:choose>
            <xsl:when test="$acronyms">
                <xsl:call-template name="insert-acronyms">
                    <xsl:with-param name="acronyms" select="$acronyms[position() &gt; 1]"/>
                    <xsl:with-param name="text">
                        <xsl:call-template name="replace-words">
                            <xsl:with-param name="text" select="$text"/>
                            <xsl:with-param name="name" select="$acronyms[1]/name"/>
                            <xsl:with-param name="description" select="$acronyms[1]/description"/>
                        </xsl:call-template>
                    </xsl:with-param>
                </xsl:call-template>
            </xsl:when>
            <xsl:otherwise>
                <xsl:copy-of select="$text"/>
            </xsl:otherwise>
        </xsl:choose>
    </xsl:template>


    <xsl:template name="replace-words">
        <xsl:param name="text" />
        <xsl:param name="name" />
        <xsl:param name="description" />

        <xsl:analyze-string select="$text" regex="{concat('(^|\W)(', string-join($name, '|'), ')(\W|$)')}">
            <xsl:matching-substring>
                <xsl:value-of select="regex-group(1)"/>
                <xsl:element name="acronym">
                 <xsl:attribute name="title"><xsl:value-of select="$description"/></xsl:attribute>
                    <xsl:value-of select="regex-group(2)"/>
                </xsl:element>
                <xsl:value-of select="regex-group(3)"/>
            </xsl:matching-substring>
            <xsl:non-matching-substring>
                <xsl:value-of select="."/>
            </xsl:non-matching-substring>
        </xsl:analyze-string>
    </xsl:template>

</xsl:stylesheet>