Python3 Minidom解析数据内部标记

时间:2018-05-05 21:34:02

标签: python python-3.x parsing xml-parsing minidom

我试图从这个XML文件的标签中提取数字:

<start-date type="date">1980-12-12</start-date>
<end-date type="date">2018-05-04</end-date>
<data type="array">
  <datum type="array">
    <datum type="date">2018-05-04</datum>
    <datum type="float">178.25</datum>
    <datum type="float">184.25</datum>
    <datum type="float">178.17</datum>
    <datum type="float">183.83</datum>
    <datum type="float">56201317.0</datum>
    <datum type="float">0.0</datum>
    <datum type="float">1.0</datum>
    <datum type="float">178.25</datum>
    <datum type="float">184.25</datum>
    <datum type="float">178.17</datum>
    <datum type="float">183.83</datum>
    <datum type="float">56201317.0</datum>
  </datum>

使用此脚本:

#Test Parser

from xml.dom import minidom
xmldoc = minidom.parse('AAPL.xml')
itemlist = xmldoc.getElementsByTagName('datum')

print(len(itemlist))
print(itemlist[0].attributes['type'].value)
for s in itemlist:
    print(s.attributes['type'].value)

但是输出返回的是什么类型=所以它反复返回浮点数,数组和日期但是我需要标记数据中的数字 像这样:

<datum type="float">178.25</datum>

我需要178.25值 如何更改我的脚本来执行此操作 这是我的第一个解析器项目,所以我在这里有点迷失。任何帮助表示赞赏

1 个答案:

答案 0 :(得分:0)

您没有提供有效的XML数据(因为没有根元素)这一事实表明了解决问题的不同方法。但所有这些方法都非常相似,并且依赖于nodeValue的使用。以下是一个解决方案。

我们假设我们有你的有效XML文件(我知道你有一个):

>>> from xml.dom import minidom
>>> xmldoc = minidom.parse('AAPL.xml')

从那里,我们将寻找具有 datum 作为标签名称的元素:

>>> datums = xmldoc.getElementsByTagName('datum')

datums是所有XML文档对象的列表,其标记名称为 datum ;这实际上包括你不需要的那个:他们的父节点<datum type="array">

我们循环遍历这些datums(并排除父项)以显示其文本。

请注意,下面的 178.25 文本是datum元素的子节点。

<datum type="float">178.25</datum>

这就是为什么我们需要循环如下:

>>> for datum in datums:
...     if datum.getAttribute('type') != 'array': #exclude the parent datum
...             print(datum.childNodes[0].nodeValue)

由于datum有一个只包含一个元素(文本元素)的子节点列表,我们需要编写datum.childNodes[0]来访问它。一旦我们将自己置于该文本元素中,我们就可以通过调用前面提到的nodeValue来阅读其内容。

这是输出:

>>> from xml.dom import minidom
>>> xmldoc = minidom.parse('AAPL.xml')
>>> datums = xmldoc.getElementsByTagName('datum')
>>> for datum in datums:
...     if datum.getAttribute('type') != 'array':
...             print(datum.childNodes[0].nodeValue)
... 
2018-05-04
178.25
184.25
178.17
183.83
56201317.0
0.0
1.0
178.25
184.25
178.17
183.83
56201317.0