我很擅长使用XML进行解析,而且我的代码仍然困在于查找XML中的所有标题(标题标签)。这就是我提出的,但它只返回一个空列表,而那里应该有标题。
import bz2
from xml.etree import ElementTree as etree
def parse_xml(filename):
with bz2.BZ2File(filename) as f:
doc = etree.parse(f)
titles = doc.findall('.//{http://www.mediawiki.org/xml/export-0.7/}title')
print titles[:10]
有人可以告诉我为什么这不能正常工作吗?只是为了清楚;我需要找到存储在列表中的标题标签内的所有文本,取自包含在bz2文件中的XML(据我所知,最好的方法是不解压缩)。