使用ElementTree时,如何访问XML节点中的数据

时间:2016-08-17 21:42:58

标签: python xml xml-parsing string-parsing

我正在解析位于此链接的XML:

XML File to Parse

我需要访问节点内的数据,看起来我编写的程序告诉我节点内部没有任何内容。这是我的代码:

import urllib
import xml.etree.ElementTree as ET 

#prompt for link where xml data resides
#Use this link for testing: http://python-data.dr-chuck.net/comments_42.xml
url = raw_input('Enter URL Link: ')

#open url and prep for parsing
data = urllib.urlopen(url).read()

#read url data and convert to XML Node Tree for parsing
comments = ET.fromstring(data)

#the comment below is part of another approach to the solution
#both approaches are leading me into the same direction
#it appears as if the data inside the node is not being parsed/extracted
#counts = comments.findall('comments/comment/count')

for count in comments.findall('count'):
    print comments.find('count').text

当我单独打印出'data'变量时,我会得到完整的XML树。但是,当我尝试访问特定节点内的数据时,该节点将返回空白状态。

我还尝试打印以下代码,看看我会得到什么数据:

for child in comments:
    print child.tag, child.attrib

我得到的输出是:

  

请注意   {}   评论   {}

我做错了什么,我错过了什么?

尝试访问节点的不同循环策略时遇到的错误之一是:

Traceback (most recent call last):
  File "xmlextractor.py", line 16, in <module>
    print comments.find('count').text
AttributeError: 'NoneType' object has no attribute 'text'

请帮助和谢谢!!!

更新:

我已经意识到通过etree docs for python查看我的方法一直试图“获取”节点属性而不是节点的内容。我还没有找到答案,但我肯定更接近!!!

第二次更新:

所以我尝试了这段代码:

import urllib
import xml.etree.ElementTree as ET 

#prompt for link where xml data resides
#Use this link for testing: http://python-data.dr-chuck.net/comments_42.xml

url = raw_input('Enter URL Link: ')

#open url and prep for parsing
data = urllib.urlopen(url).read()

#read url data and convert to XML Node Tree for parsing
comments = ET.fromstring(data)

counts = comments.findall('comments/comment/count')

print len(counts)

for count in counts:
    print 'count', count.find('count').text

从上面,当我运行这段代码时我的:

print len(counts)

输出我的计数列表中有50个节点,但我仍然得到相同的错误:

Traceback (most recent call last):
  File "xmlextractor.py", line 18, in <module>
    print 'count', count.find('count').text
AttributeError: 'NoneType' object has no attribute 'text'

我不明白为什么当我试图访问节点的内容时它说没有'text'属性。

我做错了什么?

1 个答案:

答案 0 :(得分:1)

关于您的方法的一些评论:

for count in comments.findall('count'):
    print comments.find('count').text

comments.findall('count')返回一个空列表,因为comments没有名称为count的任何直接子元素。

for child in comments:
    print child.tag, child.attrib

迭代根节点的直接子元素,称为note

# From update #2
for count in comments.findall('comments/comment/count'):
    print 'count', count.find('count').text

此处,count是一个Element对象,表示count节点,该节点本身不包含任何count个节点。因此,count.find('count')会返回NoneType个对象。

如果我理解正确,您的目标是检索count节点的文本值。这有两种方法可以实现:

for count in comments.findall('comments/comment/count'):
    print count.text

for comment in comments.iter('comment'):
    print comment.find('count').text