我有大约100个XML文件,我想将其转换为具有更好结构的另一个文件。此示例将其转换为CSV,但我还有一个变体可将其转换为更好的XML。格式与我无关。我看到有很多像这样的问题,但我发现这些例子难以适应,因为问题不在于样式表不会起作用,而是它太慢了。
我的数据文件大小介于4到12 MB之间。我在这里提供的XSLT适用于小文件。例如,当我将文件剪切为250 KB时,样式表处理得很好(尽管这需要大约30秒)。当我尝试它到实际更大的数据文件时,它似乎永远不会完成工作 - 甚至没有一个文件。我有Oxygen XML Editor,我一直在使用Saxon-HE 9.5.1.2进行转换。
一句话:这仍然很慢。我可以让我的电脑在一夜之间完成它。这涉及一个格式错误的数据集,我根本不需要经常重复这种转换。
所以我的问题是:
这个XSLT中有什么东西让它的工作特别慢吗?其他一些approch会更好吗?
这些是简化的工作示例。实际的数据文件在结构上是相同的,但有更多的节点我称之为"字"在这个例子中。属性类型指定我之后的节点。它是具有方言词语及其标准化版本的语言方言数据。
这是XML。
<?xml version="1.0" encoding="UTF-8"?>
<xml>
<order>
<slot id="ts1" value="1957"/>
<slot id="ts2" value="1957"/>
<slot id="ts3" value="2389"/>
<slot id="ts4" value="2389"/>
<slot id="ts5" value="2389"/>
<slot id="ts6" value="2389"/>
<slot id="ts7" value="3252"/>
<slot id="ts8" value="3252"/>
<slot id="ts9" value="3252"/>
<slot id="ts10" value="3360"/>
</order>
<words type="original word">
<annotation>
<data id_1="ts1" id_2="ts3">
<text>dialectal_word_1</text>
</data>
</annotation>
<annotation>
<data id_1="ts4" id_2="ts7">
<text>dialectal_word_2</text>
</data>
</annotation>
<annotation>
<data id_1="ts8" id_2="ts10">
<text>,</text>
</data>
</annotation>
</words>
<words type="normalized word">
<annotation>
<data id_1="ts2" id_2="ts5">
<text>normalized_word_1</text>
</data>
</annotation>
<annotation>
<data id_1="ts6" id_2="ts9">
<text>normalized_word_2</text>
</data>
</annotation>
</words>
</xml>
这是XSLT。它试图做的是获取在XML结构中具有匹配值的对。
<?xml version="1.0" encoding="UTF-8"?>
<xsl:stylesheet xmlns:xsl="http://www.w3.org/1999/XSL/Transform" version="2.0">
<xsl:output method="text" encoding="UTF-8" indent="yes"/>
<xsl:template match="/xml">
<xsl:text>original	normalized
</xsl:text>
<xsl:for-each select="words[@type='original word']/annotation/data">
<xsl:sort select="substring-after(@id_1, 'ts')" data-type="number"/>
<xsl:variable name="origStartTimeId" select="@id_1"/>
<xsl:variable name="origEndTimeId" select="@id_2"/>
<xsl:variable name="origStartTime_VALUE" select="/xml/order/slot[@id=$origStartTimeId]/@value"/>
<xsl:variable name="origEndTime_VALUE" select="/xml/order/slot[@id=$origEndTimeId]/@value"/>
<xsl:value-of select="text"/>
<xsl:text>	</xsl:text>
<xsl:for-each select="/xml/words[@type='normalized word']/annotation/data">
<xsl:variable name="normStartTime" select="@id_1"/>
<xsl:variable name="normEndTime" select="@id_2"/>
<xsl:variable name="normStartTime_VALUE" select="/xml/order/slot[@id=$normStartTime]/@value"/>
<xsl:variable name="normEndTime_VALUE" select="/xml/order/slot[@id=$normEndTime]/@value"/>
<xsl:if test="($normStartTime_VALUE = $origStartTime_VALUE) and ($normEndTime_VALUE = $origEndTime_VALUE)">
<xsl:value-of select="text"/>
</xsl:if>
</xsl:for-each>
<xsl:text>
</xsl:text>
</xsl:for-each>
</xsl:template>
</xsl:stylesheet>
什么是输出就是这样:
original normalized
dialectal_word_1 normalized_word_1
dialectal_word_2 normalized_word_2
,
那对我来说没问题。
谢谢!
答案 0 :(得分:4)
当前样式表中双重嵌套for-each效率低下,随着文件大小的增长会变得更糟 - 你已经得到(原始单词数)*(标准化单词数)迭代,基本上是二次的复杂性(假设文件中原始和规范化单词的数量大致相同)。如果使用 keys ,可以做得更好,它通过构建一个可用于快速查找节点的查找表(通常是恒定而非线性时间)来工作。
<!-- I've said version="2.0" to match your stylesheet in the question, but this
code is actually valid XSLT 1.0 as it doesn't use any 2.0-specific features
or functions -->
<xsl:stylesheet xmlns:xsl="http://www.w3.org/1999/XSL/Transform" version="2.0">
<xsl:output method="text" encoding="UTF-8" indent="yes"/>
<!-- first key to look up slot elements by their id -->
<xsl:key name="slotById" match="slot" use="@id" />
<!-- second key to look up normalized word annotations by the value of their slots -->
<xsl:key name="annotationBySlots" match="words[@type='normalized word']/annotation"
use="concat(key('slotById', data/@id_1)/@value, '|',
key('slotById', data/@id_2)/@value)" />
<xsl:template match="/xml">
<xsl:text>original	normalized
</xsl:text>
<xsl:apply-templates select="words[@type = 'original word']/annotation" />
</xsl:template>
<xsl:template match="annotation">
<xsl:value-of select="data/text" />
<xsl:text>	</xsl:text>
<xsl:value-of select="
key('annotationBySlots',
concat(key('slotById', data/@id_1)/@value, '|',
key('slotById', data/@id_2)/@value)
)/data/text" />
<xsl:text>
</xsl:text>
</xsl:template>
</xsl:stylesheet>
这应该以线性时间运行(一次&#34;迭代&#34;每原始字注释,加上构建查找表所需的时间,这些时间也应该是插槽数量的线性加上规范化单词注释的数量。)
答案 1 :(得分:1)
像[{1}}这样的构造要求定义键/xml/order/slot[@id=$origStartTimeId]
,然后使用<xsl:key name="slot-by-id" match="xml/order/slot" use="@id"/>
而不是key('slot-by-id', $origStartTimeId)
。在所有地方做同样的改变,我相信表现会增加。