Question

我目前正在解析XML，并从中填充数据框。假设我们有这个玩具XML：

<A>
  <AA>
      <AAA1 period='march'>ONE</AAA1>
      <AAA2>TWO</AAA2>
      <AAA3>THREE</AAA3>
      <AAA4>
           <B semester='4'>FOUR</B>
           <C>FIVE</C>
           <D>SIX</D>
      </AAA4>
  </AA>
</A>

我想要得到的是这样的： [{A.AA.AAA1.period-march: 'ONE'}, {A.AA.AAA2: 'TWO'}, {A.AA.AAA3: 'THREE'}, {A.AA.AAA4.B.semester-4: 'FOUR'},{A.AA.AAA4.C: 'FIVE'}, {A.AA.AAA4.D: 'SIX'}]，使用起来会容易得多。

我已经解析了XML并将其转换为以下形式：[{'A: 'empty'}, {'AA': 'empty'}, {'AAA1': 'ONE'}, {'AAA2': 'TWO'},{'AAA3': 'THREE'}, {'AAA4': 'empty'}, {'B': 'FOUR'}, {'C': 'FIVE'}, {'D': 'SIX'}]，用'empty'填充父标记的值以对其进行标记，然后可以按照以下想法进行串联：和“空”值，保存要连接的密钥，依此类推。

我将非常感谢您的帮助。提前非常感谢您。

Answer 1

棘手的部分是获取您感兴趣的元素的路径。xslt的一种方法是使用对模板的递归调用。

以下使用此方法来组装字典的字符串版本，并将其交给python。

这是xslt部分，dataframe.xsl：

<?xml version="1.0"?>
<xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
    <xsl:output method="text" />
    <xsl:strip-space elements="*" />

    <!-- match all elements that have text -->
    <xsl:template match="//*[text()]">
        <xsl:text>{'</xsl:text>
        <xsl:call-template name="pwd" />
        <xsl:text>': "</xsl:text>
        <xsl:value-of select="normalize-space(.)" />
        <xsl:text>"}&#xa;</xsl:text>
    </xsl:template>

    <!-- recursive template that prints parent element names -->
    <xsl:template name="pwd">
        <xsl:for-each select="parent::*">
            <xsl:call-template name="pwd" />
        </xsl:for-each>
        <xsl:if test="count(ancestor::*) > 0">
            <xsl:text>.</xsl:text>
        </xsl:if>
        <xsl:value-of select="name()" />
        <xsl:for-each select="@*">
            <xsl:value-of select="concat('.', name(), '-', .)" />
        </xsl:for-each>
    </xsl:template>
</xsl:stylesheet>

要使用libxml的xsltproc实用工具测试xslt转换：

xsltproc dataframe.xsl source.xml
{'A.AA.AAA1.period-march': 'ONE'}
{'A.AA.AAA2': 'TWO'}
{'A.AA.AAA3': 'THREE'}
{'A.AA.AAA4.B.semester-4': 'FOUR'}
{'A.AA.AAA4.C': 'FIVE'}
{'A.AA.AAA4.D': 'SIX'}

将所有内容一起放入python dataframe.py：

#!/usr/bin/env python3
import ast
from lxml import etree

with open('dataframe.xsl') as stylesheet:
    transform = etree.XSLT(etree.XML(stylesheet.read()))

with open('source.xml') as xml:
    dataframe_str = str(transform(etree.parse(xml))).rstrip('\n')

dataframe_array = list(map(lambda s: ast.literal_eval(s),
    dataframe_str.split('\n')))

print(dataframe_array)

结果：

./dataframe.py
[{'A.AA.AAA1.period-march': 'ONE'}, {'A.AA.AAA2': 'TWO'}, {'A.AA.AAA3': 'THREE'}, {'A.AA.AAA4.B.semester-4': 'FOUR'}, {'A.AA.AAA4.C': 'FIVE'}, {'A.AA.AAA4.D': 'SIX'}]

连接XML标记以成为数据框列名称

1 个答案: