好吧,我有一个xslt样式表,可以完成我现在需要的大部分内容,它看起来像这样:
<?xml version="1.0" encoding="UTF-8"?>
<xsl:stylesheet xmlns:xsl="http://www.w3.org/1999/XSL/Transform" version="1.0">
<xsl:template match="//Product/Description">
<title>
<xsl:apply-templates/>
</title>
</xsl:template>
<xsl:template match="//Product/Picture">
<link>
<xsl:apply-templates/>
</link>
</xsl:template>
<xsl:template match="//Product/Caption">
<description>
<xsl:apply-templates/>
</description>
</xsl:template>
<xsl:template match="Picture">
<xsl:param name="text"/>
<xsl:choose>
<xsl:when test="contains($text, '<')">
<xsl:value-of select="substring-before($text, '<')"/>
<xsl:call-template name="strip-tags">
<xsl:with-param name="text" select="substring-after($text, 'src=')"/>
</xsl:call-template>
</xsl:when>
<xsl:otherwise>
<xsl:value-of select="$text"/>
</xsl:otherwise>
</xsl:choose>
<xsl:apply-templates/>
</xsl:template>
<xsl:template match="Caption">
<xsl:param name="text"/>
<xsl:choose>
<xsl:when test="contains($text, '<')">
<xsl:value-of select="substring-before($text, '<')"/>
<xsl:call-template name="strip-tags">
<xsl:with-param name="text" select="substring-after($text,'>')"/>
</xsl:call-template>
</xsl:when>
<xsl:otherwise>
<xsl:value-of select="$text"/>
</xsl:otherwise>
</xsl:choose>
<xsl:apply-templates/>
</xsl:template>
</xsl:stylesheet>
这可能是一个巨大的问题,因为我只是从我的xml编辑器的'raw'输出中抓取文本,因为它可以满足我的需要。它将正确的标签放在正确的位置。然而,现在'strip-tag'似乎不起作用,我试图制作另一个版本的'strip-tag',它会删除'src ='和'&gt;'之后的所有内容但显然'strip-tag'与我想做的事情正好相反。有没有与'strip-tag'相反的东西?然后我可以用'strip-all-except'或者其他任何名称替换'strip-tag'一词
编辑:
这是输入的xml文件:
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE StoreExport SYSTEM "http://store.yahoo.com/doc/dtd/StoreExport.dtd">
<StoreExport>
<Settings>
<Published timestamp="1297187196"/>
<Locale code="C" name="English" encoding="iso-8859-1"/>
<StoreName>Cl33333</StoreName>
<Currency>USD</Currency>
<ShipMethods>
<ShipMethod></ShipMethod>
</ShipMethods>
<PayMethods>
</PayMethods>
</Settings>
<Products>
<Product Id="agfasu">
<Code>3616a</Code>
<Description>Ageless Fashion Suit</Description>
<Url>http://www.cl333333333d.com/agfasu.html</Url>
<Thumb><img border=0 width=50 height=70 src=http://ep.y3333333333327706119506618_2144_317652924></Thumb>
<Picture><img border=0 width=600 height=845 src=http://ep.yim3333333st-27706119506618_2144_317019111></Picture>
<Orderable>YES</Orderable>
<Taxable>YES</Taxable>
<Pricing>
<BasePrice>178.00</BasePrice>
</Pricing>
<Path>333333333333333om/wochsu.html">Womens Church Suits</ProductRef>
<ProductRef Id="2454" Url="http://www.cl33333333454.html">Aussie Austine Spring/Summer 2011</ProductRef>
</Path>
<Availability>Usually ships the next business day.</Availability>
<Caption><head> <meta content="en-us" http-equiv="Content-Language"> <style type="text/css"> .style3 { font-family: arial, helvetica; font-size: medium; font-weight: bold; } .style4 { font-size: small; } </style> </head> <p><strong>Wholesale Women&#39;s</Caption>
<OptionLists>
<OptionList name="Size">
<OptionValue>8</OptionValue>
</OptionList>
<OptionList name="Colors">
<OptionValue>Red</OptionValue>
</OptionList>
<OptionList name="Accessories">
<OptionValue>Suit</OptionValue>
</OptionList>
</OptionLists>
</Product>
我想要的输出:
<item>
<title>
<![CDATA['DescriptionTag]]>
</title>
<description>
<![CDATA[CaptionTagStrippedofEscapedCharacters]]>
</description>
<link>'UrlTag'</link>
<g:condition>new</g:condition>
<g:price>'BasePriceTag'</g:price>
<g:product_type>Clothing, Accessories</g:product_type>
<g:image_link>'PictureTagFrom 'src=' to '>' </g:image_link>
<g:payment_accepted>Visa</g:payment_accepted>
<g:payment_accepted>Mastercard</g:payment_accepted>
<g:payment_accepted>Discover</g:payment_accepted>
</item>
某些标签不需要从源填充,但总是相同的,例如“付款接受”,“条件”和“产品类型”
答案 0 :(得分:0)
不应该使用XML词汇表,也不应该使用期望可解析数据作为未解析文本节点的XML使用者
如果你这样做,那么你必须面对后果并进行适当的解析,而不是一些容易出错的RegExp或字符串处理。
https://bug98168.bugzilla.mozilla.org/attachment.cgi?id=434081
可以找到一个用于编码格式正确的XHTML的基本 XSLT解析器因此,您可以解析未解析的数据,然后使用node-set()
扩展函数应用第二个阶段转换。