使用XSLT从XML文档中提取文本内容

时间:2015-01-19 20:18:16

标签: xml xslt text-mining

如何使用XSLT提取XML文档的文本内容。

对于这样的片段,

<record>
    <tag1>textual content</tag1>
    <tag2>textual content</tag2>
    <tag2>textual content</tag2>
</record>

期望的结果是:

文字内容,文字内容,文字内容

什么是输出(表格,CSV等)的最佳格式,其中内容可以进行进一步操作,例如文本挖掘?

由于

更新

要扩展问题,如何分别提取每条记录的内容。例如,对于以下XML:

<Records>
<record id="1">
    <tag1>textual co</tag1>
    <tag2>textual con</tag2>
    <tag2>textual cont</tag2>
</record>
<record id="2">
    <tag1>some text</tag1>
    <tag2>some tex</tag2>
    <tag2>some te</tag2>
</record>
</Records>

期望的结果应该是:

(textual co, textual con, textual cont) , (some text, some tex, some te)

或以更好的格式进行进一步处理操作。

3 个答案:

答案 0 :(得分:2)

对于问题的第一部分,只是一个(更新的)答案 - 对于XSLT之后的问题中的输入

<?xml version="1.0" encoding="UTF-8" ?>
<xsl:transform xmlns:xsl="http://www.w3.org/1999/XSL/Transform" version="1.0">
<xsl:output method="text" doctype-public="XSLT-compat" 
omit-xml-declaration="yes" encoding="UTF-8" indent="yes" />
<xsl:template match="record">
    <xsl:for-each select="child::*">
      <xsl:value-of select="normalize-space()"/>
      <xsl:if test="position()!= last()">, </xsl:if>
    </xsl:for-each>
  </xsl:template>
</xsl:transform>

有结果

textual content, textual content, textual content

模板匹配record打印每个子元素的值,并添加,以防它不是最后一个元素。

答案 1 :(得分:1)

您可以使用以下XSLT:

<xsl:transform version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
<xsl:output method="text" indent="yes"/>
<xsl:strip-space elements="*"/>
<xsl:template match="/">
    <xsl:apply-templates select="//text()"/>
</xsl:template>
<xsl:template match="text()">
    <xsl:value-of select="."/>
    <xsl:if test="position() != last()">, </xsl:if>
</xsl:template>
</xsl:transform>

对于问题中的更新,您可以使用以下XSLT:

<xsl:transform version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
<xsl:output method="text" indent="yes"/>
<xsl:strip-space elements="*"/>
<xsl:template match="/*">
    <xsl:apply-templates/>
</xsl:template>
<xsl:template match="*">(<xsl:apply-templates select=".//text()"/>)<xsl:if test="position() != last()">, </xsl:if>
</xsl:template>
<xsl:template match="text()">
    <xsl:value-of select="."/>
    <xsl:if test="position() != last()">, </xsl:if>
</xsl:template>
</xsl:transform>

答案 2 :(得分:0)

这个更短,更通用,因为它没有命名任何元素。它还利用了XSLT的内置模板,这些模板为语言提供了默认行为,减少了编码量。假设XSLT 1.0

以下是lingamurthyCS答案的较短变体,让内置模板规则处理最后一个文本节点。这与我之前的回答类似。

<xsl:transform version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
<xsl:output method="text"/>
<xsl:strip-space elements="*"/>

<xsl:template match="*[position() != last()]">
    <xsl:value-of select="."/><xsl:text>,</xsl:text>    
</xsl:template>
</xsl:transform>

然而,这项特殊工作更适合XQuery。

将您的XML粘贴到http://try.zorba.io/queries/xquery中,并在其末尾添加/ string-join(*,','),就像这样

<record>
    <tag1>textual content</tag1>
    <tag2>textual content</tag2>
    <tag2>textual content</tag2>
</record>/string-join(*,',')

练习OP将其转换为XSLT 2.0,如果这是他们正在使用的。