Python:从xml中提取文本

时间:2014-03-08 17:40:23

标签: python xml

我有一个充满XML文件的目录。我想浏览所有文件,在新文件中提取文本,并将新文件命名为XML +中的元标记。

实施例: 所有XML文件都如下所示:

<?xml version='1.0' encoding='UTF-8'?>
<event><event id="9936070" origin="2008_01.xml"><meta/><text><original>Here is the text.</original>
</text><actors><actor><name>Enterprise</name><polarity>negativ implizit</polarity><centrality>zentral</centrality></actor></actors></event></event>

现在,我想提取文本(“这是文本。”)并将其保存在名为“Enterprise_2008_01.xml”的文件中。 这怎么可能?特别是,如何考虑所有文件,并根据情况增加最后一个数字(如果有另一个文件带有2008年的标记“Enterprise”,则文件名应为“Enterprise_2008_02.xml”。 非常感谢您的帮助! :)

1 个答案:

答案 0 :(得分:0)

import xml.etree.ElementTree as eltre
path = 'C:/myfile.xml'
eTree = eltre.ElementTree()
eTree.parse(path)
elements = list(eTree.getroot())
for el in elements:
    print el.text
    #prints body
    print el.tag
    #prints elementName
    print el.attrib
    #prints attributes
    childElements = list(el)
    #gets children