我有以下Html文档。
<html>
<head><title>...</title></head>
<body>
<div class="figure-wrapper" id="figure1">...</div>
<p class="para">Lorem Ipsum (see Fig. 1). Lorem Ipsum (see Fig. 2).</p>
<div class="figure-wrapper" id="figure3">...</div>
<p class="para">Lorem Ipsum (see Fig. 3). Lorem Ipsum (see Fig. 1).</p>
<div class="figure-wrapper" id="figure2">...</div>
</body>
</html>
我想要实现什么
<div class="figure-wrapper">
元素包裹的元素)放在具有第一个引用的一个段落之后。 示例和理想输出
<div class="figure-wrapper" id="figure1>
元素应该放在第一段之后,因为它是引用此图的所有段落中的第一段。
<html>
<head><title>...</title></head>
<body>
<p class="para">Lorem Ipsum (see Fig. 1). Lorem Ipsum (see Fig. 2).</p>
<div class="figure-wrapper" id="figure1">...</div>
<div class="figure-wrapper" id="figure2">...</div>
<p class="para">Lorem Ipsum (see Fig. 3). Lorem Ipsum (see Fig. 1).</p>
<div class="figure-wrapper" id="figure3">...</div>
</body>
</html>
限制
输入文档中没有对图元素的显式引用(就HTML元素而言)。因此,我必须分析段落内容(例如,出现某些值,如图x等),以推断是否在段落内对图形进行了引用。
到目前为止,我所制作的是以下解决方案。
我尝试使用身份变换模式,密钥和多遍方法尝试了一种奇怪的混合方式,然而,我无法思考。
<xsl:stylesheet
xmlns:xsl ="http://www.w3.org/1999/XSL/Transform"
xmlns:xd ="http://www.oxygenxml.com/ns/doc/xsl"
xmlns:fn ="http://www.w3.org/2005/xpath-functions"
xmlns:functx="http://www.functx.com"
exclude-result-prefixes="xd"
version="2.0">
<!-- maximum number of figure references within one paragraph -->
<xsl:variable name="figThreshold" select="100" />
<!-- index of all figure elements -->
<xsl:key name="figure-index" match="node()[@class='figure-wrapper']" use="@id" />
<!-- transformation init -->
<xsl:template match="/">
<xsl:variable name="pass1">
<xsl:apply-templates mode="pass1" />
</xsl:variable>
<xsl:variable name="pass2">
<xsl:for-each select="$pass1">
<xsl:apply-templates mode="pass2" />
</xsl:for-each>
</xsl:variable>
<xsl:copy-of select="$pass2" />
</xsl:template>
<!-- pass 1 start -->
<xsl:template match="node() | @*" mode="pass1">
<xsl:copy>
<xsl:apply-templates select="node() | @*" mode="pass1" />
</xsl:copy>
</xsl:template>
<xsl:template match="node()[name()='p']" mode="pass1" priority="1">
<xsl:copy>
<xsl:apply-templates select="@* | node()" mode="pass1" />
</xsl:copy>
<xsl:call-template name="locate-and-move-figures" />
</xsl:template>
<!-- iterates x times (see value of figThreshold) over paragraph text and increment each time the figure number reference to look for -->
<xsl:template name="locate-and-move-figures">
<xsl:param name="figCount" select="1" />
<xsl:variable name="figureId" select="concat('figure',$figCount)" />
<xsl:variable name="searchStringText" select="concat('Fig. ',$figCount)) />
<!-- if figure reference is found within paragraph insert the appropriate after it -->
<xsl:if test="$searchStringText">
<xsl:copy-of select="key('figure-index',$figureId)" />
</xsl:if>
<!-- recursive call of template unless threshold value is reached -->
<xsl:if test="$figCount < $figThreshold">
<xsl:call-template name="locate-and-move-figures">
<xsl:with-param name="figCount" select="$figCount + 1" />
</xsl:call-template>
</xsl:if>
</xsl:template>
<xsl:template match="node()[@class='figure-wrapper']" mode="pass1" />
<!-- pass 1 end -->
<!-- pass 2 start - eliminations of all duplicates -->
<xsl:template match="node() | @*" mode="pass2">
<xsl:copy>
<xsl:apply-templates select="node() | @*" mode="pass2" />
</xsl:copy>
</xsl:template>
<!-- pass 2 end -->
</xsl:stylesheet>
我得到的输出是:
<html>
<head><title>...</title></head>
<body>
<p class="para">Lorem Ipsum (see Fig. 1). Lorem Ipsum (see Fig. 2).</p>
<div class="figure-wrapper" id="figure1">...</div>
<div class="figure-wrapper" id="figure2">...</div>
<p class="para">Lorem Ipsum (see Fig. 3). Lorem Ipsum (see Fig. 1).</p>
<div class="figure-wrapper" id="figure1">...</div>
<div class="figure-wrapper" id="figure3">...</div>
</body>
</html>
问题
<div class="figure-wrapper">
元素。我试图在第二遍中摆脱它们,但是我无法理解重复删除与身份转换模式的结合。 我们非常感谢您对这些问题的任何帮助。
答案 0 :(得分:1)
这是您可以探索的不同方法。我在XSLT 1.0中做到了这一点,但差异对于该方法并不重要。
基本思想是将父段的id附加到段所包含的每个引用中。然后,使用Muenchian分组,我们只留下每个引用的第一个出现。由于每个都保留了原始父级的ID,因此我们知道它需要在最终输出中出现的位置。
请注意,假设没有独立的参考元素(即至少在一个段落中未引用的元素)。
<?xml version="1.0" encoding="utf-8"?>
<xsl:stylesheet version="1.0"
xmlns:xsl="http://www.w3.org/1999/XSL/Transform"
xmlns:exsl="http://exslt.org/common"
extension-element-prefixes="exsl">
<xsl:output method="xml" version="1.0" encoding="UTF-8" indent="yes"/>
<xsl:strip-space elements="*"/>
<xsl:key name="tokens" match="token" use="." />
<xsl:key name="ref" match="div[@class='figure-wrapper']" use="@id" />
<xsl:variable name="root" select="/"/>
<!-- 1. collect all references, along with their parent id -->
<xsl:variable name="references">
<xsl:for-each select="//p[@class='para']">
<xsl:call-template name="cat_ref">
<xsl:with-param name="string" select="."/>
<xsl:with-param name="pid" select="generate-id()"/>
</xsl:call-template>
</xsl:for-each>
</xsl:variable>
<!-- 2. keep only unique references -->
<xsl:variable name="unique-ref" select="exsl:node-set($references)/token[count(. | key('tokens', .)[1]) = 1]"/>
<!-- 3. output -->
<xsl:template match="@*|node()">
<xsl:copy>
<xsl:apply-templates select="@*|node()"/>
</xsl:copy>
</xsl:template>
<xsl:template match="p[@class='para']">
<xsl:copy>
<xsl:apply-templates select="@*|node()"/>
</xsl:copy>
<!-- append my references -->
<xsl:for-each select="$unique-ref[@pid=generate-id(current())]">
<xsl:variable name="ref-key" select="."/>
<!-- switch back to document in order to use key -->
<xsl:for-each select="$root">
<xsl:copy-of select="key('ref', $ref-key)"/>
</xsl:for-each>
</xsl:for-each>
</xsl:template>
<!-- suppress references -->
<xsl:template match="div [@class='figure-wrapper']"/>
<!-- proc template -->
<xsl:template name="cat_ref">
<xsl:param name="string"/>
<xsl:param name="pid"/>
<xsl:param name="prefix" select="'(see Fig. '" />
<xsl:param name="suffix" select="')'" />
<xsl:if test="contains($string, $prefix) and contains(substring-after($string, $prefix), $suffix)">
<token pid="{$pid}">
<xsl:text>figure</xsl:text>
<xsl:value-of select="substring-before(substring-after($string, $prefix), $suffix)" />
</token>
<!-- recursive call -->
<xsl:call-template name="cat_ref">
<xsl:with-param name="string" select="substring-after(substring-after($string, $prefix), $suffix)" />
<xsl:with-param name="pid" select="$pid" />
</xsl:call-template>
</xsl:if>
</xsl:template>
</xsl:stylesheet>
应用于您的输入,获得以下结果:
<?xml version="1.0" encoding="UTF-8"?>
<html>
<head>
<title>...</title>
</head>
<body>
<p class="para">Lorem Ipsum (see Fig. 1). Lorem Ipsum (see Fig. 2).</p>
<div class="figure-wrapper" id="figure1">...</div>
<div class="figure-wrapper" id="figure2">...</div>
<p class="para">Lorem Ipsum (see Fig. 3). Lorem Ipsum (see Fig. 1).</p>
<div class="figure-wrapper" id="figure3">...</div>
</body>
</html>
答案 1 :(得分:1)
以下是我对XSLT 2.0的建议,它在第一步中使用analyze-string
来转换,例如(see Fig. 3)
进入元素<ref name="figure" idref="3"/>
,然后使用键来标识p
元素中的第一个引用,以便在第二步中输出div[@class = 'figure-wrapper']
。第二步还将ref
元素转换回内联文本:
<xsl:stylesheet version="2.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
<xsl:output method="html"/>
<xsl:variable name="references">
<xsl:apply-templates mode="references"/>
</xsl:variable>
<xsl:template match="@* | node()" mode="#all">
<xsl:copy>
<xsl:apply-templates select="@* , node()" mode="#current"/>
</xsl:copy>
</xsl:template>
<!-- might want to use match="p[@class = 'para']//text()" -->
<xsl:template match="text()" mode="references" priority="5">
<xsl:analyze-string select="." regex="\(see Fig\. ([0-9]+)\)">
<xsl:matching-substring>
<ref name="figure" idref="{regex-group(1)}"/>
</xsl:matching-substring>
<xsl:non-matching-substring>
<xsl:value-of select="."/>
</xsl:non-matching-substring>
</xsl:analyze-string>
</xsl:template>
<xsl:key name="refs" match="div[@class = 'figure-wrapper']" use="@id"/>
<xsl:key name="fig-refs" match="ref" use="concat(@name, @idref)"/>
<xsl:template match="/">
<xsl:apply-templates select="$references/node()"/>
</xsl:template>
<xsl:template match="div[@class = 'figure-wrapper']"/>
<xsl:template match="p[@class = 'para'][.//ref[. is key('fig-refs', concat(@name, @idref))[1]]]">
<xsl:next-match/>
<xsl:variable name="first-refs" select=".//ref[. is key('fig-refs', concat(@name, @idref))[1]]"/>
<xsl:copy-of select="key('refs', $first-refs/concat(@name, @idref))"/>
</xsl:template>
<xsl:template match="ref">
<xsl:text>(see Fig. </xsl:text>
<xsl:value-of select="@idref"/>
<xsl:text>)</xsl:text>
</xsl:template>
</xsl:stylesheet>
将XSLT与Saxon 9.5一起应用到您的输入中
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
<title>...</title>
</head>
<body>
<p class="para">Lorem Ipsum (see Fig. 1). Lorem Ipsum (see Fig. 2).</p>
<div class="figure-wrapper" id="figure1">...</div>
<div class="figure-wrapper" id="figure2">...</div>
<p class="para">Lorem Ipsum (see Fig. 3). Lorem Ipsum (see Fig. 1).</p>
<div class="figure-wrapper" id="figure3">...</div>
</body>
</html>
我认为这是你想要的元素的顺序。