XSLT,只抓取标签中的一部分字符串

时间:2011-02-13 03:11:15

标签: xml xslt

好吧,我有一个xslt样式表,可以完成我现在需要的大部分内容,它看起来像这样:

<?xml version="1.0" encoding="UTF-8"?>
<xsl:stylesheet xmlns:xsl="http://www.w3.org/1999/XSL/Transform" version="1.0">
  <xsl:template match="//Product/Description">
    <title>
      <xsl:apply-templates/>
    </title>
  </xsl:template>
  <xsl:template match="//Product/Picture">
    <link>
      <xsl:apply-templates/>
    </link>
  </xsl:template>
  <xsl:template match="//Product/Caption">
    <description>
      <xsl:apply-templates/>
    </description>
  </xsl:template>
  <xsl:template match="Picture">
    <xsl:param name="text"/>
    <xsl:choose>
      <xsl:when test="contains($text, '&lt;')">
        <xsl:value-of select="substring-before($text, '&lt;')"/>
        <xsl:call-template name="strip-tags">
          <xsl:with-param name="text" select="substring-after($text, 'src=')"/>
        </xsl:call-template>
      </xsl:when>
      <xsl:otherwise>
        <xsl:value-of select="$text"/>
      </xsl:otherwise>
    </xsl:choose>
    <xsl:apply-templates/>
  </xsl:template>
  <xsl:template match="Caption">
    <xsl:param name="text"/>
    <xsl:choose>
      <xsl:when test="contains($text, '&lt;')">
        <xsl:value-of select="substring-before($text, '&lt;')"/>
        <xsl:call-template name="strip-tags">
          <xsl:with-param name="text" select="substring-after($text,'&gt;')"/>
        </xsl:call-template>
      </xsl:when>
      <xsl:otherwise>
        <xsl:value-of select="$text"/>
      </xsl:otherwise>
    </xsl:choose>
    <xsl:apply-templates/>
  </xsl:template>
</xsl:stylesheet>

这可能是一个巨大的问题,因为我只是从我的xml编辑器的'raw'输出中抓取文本,因为它可以满足我的需要。它将正确的标签放在正确的位置。然而,现在'strip-tag'似乎不起作用,我试图制作另一个版本的'strip-tag',它会删除'src ='和'&gt;'之后的所有内容但显然'strip-tag'与我想做的事情正好相反。有没有与'strip-tag'相反的东西?然后我可以用'strip-all-except'或者其他任何名称替换'strip-tag'一词

编辑:
这是输入的xml文件:

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE StoreExport SYSTEM "http://store.yahoo.com/doc/dtd/StoreExport.dtd">
<StoreExport>
  <Settings>
    <Published timestamp="1297187196"/>
    <Locale code="C" name="English" encoding="iso-8859-1"/>
    <StoreName>Cl33333</StoreName>
    <Currency>USD</Currency>
    <ShipMethods>
      <ShipMethod></ShipMethod>

    </ShipMethods>
    <PayMethods>

    </PayMethods>
  </Settings>
  <Products>  

<Product Id="agfasu">
  <Code>3616a</Code>
  <Description>Ageless Fashion Suit</Description>
  <Url>http://www.cl333333333d.com/agfasu.html</Url>
  <Thumb>&lt;img border=0 width=50 height=70 src=http://ep.y3333333333327706119506618_2144_317652924&gt;</Thumb>
  <Picture>&lt;img border=0 width=600 height=845 src=http://ep.yim3333333st-27706119506618_2144_317019111&gt;</Picture>

  <Orderable>YES</Orderable>
  <Taxable>YES</Taxable>
  <Pricing>
    <BasePrice>178.00</BasePrice>

  </Pricing>
  <Path>333333333333333om/wochsu.html">Womens Church Suits</ProductRef>
    <ProductRef Id="2454" Url="http://www.cl33333333454.html">Aussie Austine Spring/Summer 2011</ProductRef>

  </Path>
  <Availability>Usually ships the next business day.</Availability>
  <Caption>&lt;head&gt; &lt;meta content="en-us" http-equiv="Content-Language"&gt; &lt;style type="text/css"&gt; .style3 {  font-family: arial, helvetica;  font-size: medium;  font-weight: bold; } .style4 {  font-size: small; } &lt;/style&gt; &lt;/head&gt;  &lt;p&gt;&lt;strong&gt;Wholesale Women&amp;#39;s</Caption>

  <OptionLists>
    <OptionList name="Size">
      <OptionValue>8</OptionValue>
    </OptionList>
    <OptionList name="Colors">
      <OptionValue>Red</OptionValue>
    </OptionList>

    <OptionList name="Accessories">
      <OptionValue>Suit</OptionValue>
    </OptionList>

  </OptionLists>
</Product>  

我想要的输出:

<item>
<title>
<![CDATA['DescriptionTag]]>  
</title>
<description>
<![CDATA[CaptionTagStrippedofEscapedCharacters]]>
</description>
<link>'UrlTag'</link>
<g:condition>new</g:condition>
<g:price>'BasePriceTag'</g:price>
<g:product_type>Clothing, Accessories</g:product_type>
<g:image_link>'PictureTagFrom 'src=' to '>' </g:image_link>
<g:payment_accepted>Visa</g:payment_accepted>
<g:payment_accepted>Mastercard</g:payment_accepted>
<g:payment_accepted>Discover</g:payment_accepted>
</item>  

某些标签不需要从源填充,但总是相同的,例如“付款接受”,“条件”和“产品类型”

1 个答案:

答案 0 :(得分:0)

不应该使用XML词汇表,也不应该使用期望可解析数据作为未解析文本节点的XML使用者

如果你这样做,那么你必须面对后果并进行适当的解析,而不是一些容易出错的RegExp或字符串处理。

https://bug98168.bugzilla.mozilla.org/attachment.cgi?id=434081

可以找到一个用于编码格式正确的XHTML的基本 XSLT解析器

因此,您可以解析未解析的数据,然后使用node-set()扩展函数应用第二个阶段转换。