我经常得到一些格式不像我期望的那样的XML,并且正在寻找自动修复它的最佳方法。不幸的是,解决方案是滑过我的头。
我正在研究杂志内容,并且难以处理两个特定元素。
There are <subhead> elements, and <body> elements. Even though the subhead element should always be on it's own, sometimes the proofer will accidentally nest it with a <body> node.
<subhead> nodes should be formatted as their own paragraph, wrapped in <p> and <strong> tags.
<body> nodes should just be wrapped in <p> tags.
So I could get either:
<subhead>Dogs</subhead>
<body>Dogs do not like cats.</body>
or
<body><subhead>Dogs</subhead> Dogs do not like cats.</body>
I would like either scenario to output as:
<p><strong>Dogs</strong></p>
<p>Dogs do not like cats.</p>
目前,我的代码看起来像..
<xsl:for-each select="//default:textObject/default:text/*">
<xsl:for-each select="./*">
<xsl:choose>
<xsl:when test="@name='subhead'">
<p><strong>
<xsl:apply-templates select="node()"/>
</strong></p>
</xsl:when>
<xsl:when test="@name='body'">
<p>
<xsl:apply-templates select="node()"/>
</p>
</xsl:when>
...
</xsl:choose>
</xsl:for-each>
</xsl:for-each>
如何相应调整以解决该问题?
谢谢。
答案 0 :(得分:2)
尝试为不可预测的传入数据结构编写XSLT通常是不可取的。如果发生其他嵌套错误怎么办?您可以更好地花时间添加一层验证。最简单的形式可能就是打样机必须运行XML的DTD / Schema表。
要回答你的问题,试试这个。我假设每个body
/ subhead
配对都位于一个公共元素(item
)内,但您没有说。 (否则,subhead
标签本身就在哪里,您如何知道哪个subhead
与哪个body
相关 - 它始终是前/后兄弟?)
<强> XML 强>
<root>
<item>
<subhead>Dogs</subhead>
<body>Dogs do not like cats.</body>
</item>
<item>
<body><subhead>Dogs</subhead> Dogs do not like cats.</body>
</item>
</root>
<强> XSL:强>
<!-- root and static content -->
<xsl:template match="/">
<xsl:apply-templates select='root/item/body' />
</xsl:template>
<!-- iteration content - subhead/body pairings (matching 'body' nodes) -->
<xsl:template match='body'>
<p><strong><xsl:value-of select='parent::*/subhead | subhead' /></strong></p>
<p><xsl:value-of select='text()' /></p>
</xsl:template>
您可以在this XMLPlayground session运行它。
答案 1 :(得分:1)
这个简短而完整的转型:
<xsl:stylesheet version="1.0"
xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
<xsl:output omit-xml-declaration="yes" />
<xsl:strip-space elements="*"/>
<xsl:template match="/*">
<xsl:apply-templates select="(subhead | body/subhead)/text()"/>
<xsl:text>
</xsl:text>
<xsl:apply-templates select="body/text()"/>
</xsl:template>
<xsl:template match="subhead/text()">
<p><strong><xsl:value-of select="."/></strong></p>
</xsl:template>
<xsl:template match="body/text()">
<p><xsl:value-of select="."/></p>
</xsl:template>
</xsl:stylesheet>
应用于以下XML文档时:
<t>
<subhead>Dogs</subhead>
<body>Dogs do not like cats.</body>
</t>
产生想要的结果:
<p><strong>Dogs</strong></p>
<p>Dogs do not like cats.</p>
将相同的转换应用于第二种类型的文档时:
<t>
<body><subhead>Dogs</subhead> Dogs do not like cats.</body>
</t>
同样想要的,产生了正确的结果:
<p><strong>Dogs</strong></p>
<p> Dogs do not like cats.</p>
<强> Explantion 强>:
特定模板的结果在输出中出现的顺序不取决于匹配节点的顺序,而是取决于导致模板被选择执行的相应<xsl:apply-templates>
指令的顺序。 / p>
请注意:
如果文档的结构确实未知,只需在上面的代码中替换:
<xsl:apply-templates select="(subhead | body/subhead)/text()"/>
使用:
<xsl:apply-templates select="(//subhead | //body/subhead)/text()"/>