我想从XML文件中提取一些数据并将其保存为表格格式,例如XLS或DBF。
这是我有的XML文件:
<?xml version="1.0" encoding="utf-8"?>
<SOAP-ENV:Envelope xmlns:SOAP-ENV="http://schemas.xmlsoap.org/soap/envelope/">
<SOAP-ENV:Header />
<SOAP-ENV:Body>
<ADD_LandIndex_001>
<CNTROLAREA>
<BSR>
<VERB>ADD</VERB>
<NOUN>LandIndex</NOUN>
<REVISION>001</REVISION>
</BSR>
</CNTROLAREA>
<DATAAREA>
<LandIndex>
<reportId>AMI100031</reportId>
<requestKey>R3278458</requestKey>
<SubmittedBy>EN4871</SubmittedBy>
<submittedOn>2015/01/06 4:20:11 PM</submittedOn>
<LandIndex>
<agreementdetail>
<agreementid>001 4860</agreementid>
<agreementtype>NATURAL GAS</agreementtype>
<currentstatus>
<status>ACTIVE</status>
<statuseffectivedate>1965/02/18</statuseffectivedate>
<termdate>1965/02/18</termdate>
</currentstatus>
<designatedrepresentative>
</designatedrepresentative>
</agreementdetail>
</LandIndex>
</LandIndex>
</DATAAREA>
</ADD_LandIndex_001>
</SOAP-ENV:Body>
</SOAP-ENV:Envelope>
我对 agreementdetail 标记内的信息感兴趣,该标记位于DATAAREA / LandIndex / LandIndex /
下更新
感谢 MattDMo ,这项任务已经从死点转移了一下。所以我在下面制作了这个脚本。它迭代文件并获取 agreementdetail 的所有实例,并为每个实例输出 agreementid 和 agreementtype 。
import xml.etree.ElementTree as ET
import arcpy
xmlfile = 'D:/Working/Test/Test.xml'
element_tree = ET.parse(xmlfile)
root = element_tree.getroot()
agreement = root.findall(".//agreementdetail")
result = []
elements = ('agreementid', 'agreementtype')
for a in agreement:
obj = {}
for e in elements:
obj[e] = a.find(e).text
result.append(obj)
arcpy.AddMessage(result)
我收到的输出包括一堆这样的字符串:{'agreementid':'001 4860','agreementtype':'NATURAL GAS'}
现在我需要将此输出转换为表格格式(.csv,.dbf,.xls等),以便agreementid和agreementtype为列:
agreementid | agreementtype
001 4860 | NATURAL GAS
如果你能指导我如何完成它,我将非常感激。或者也许是一个例子?
P.S。 Python版本是2.7
答案 0 :(得分:1)
以下内容应该有效:
import xml.etree.ElementTree as ET
import arcpy
xmlfile = 'D:/Working/Test/Test.xml'
element_tree = ET.parse(xmlfile)
root = element_tree.getroot()
agreement = root.find(".//agreementid").text
arcpy.AddMessage(agreement)
root.find()
调用使用XPath表达式(快速备忘单在Python文档here中)来查找当前级别agreementid
下任意级别的第一个标记。如果文件中有多个标记名称,则可以使用root.findall()
并迭代结果。例如,如果有三个名为agreementid
的字段,并且您知道您想要第二个字段,则root.findall(".//agreementid")[1]
应该有效。
答案 1 :(得分:1)
MattDMo已经给出了足够的答案,但我只是想提醒你python有一个csv module,这样可以更容易地编写逗号分隔数据,然后通常将其读入数据库等应用程序或电子表格。
来自文档:
import csv
with open('eggs.csv', 'wb') as csvfile:
spamwriter = csv.writer(csvfile, delimiter=' ',
quotechar='|', quoting=csv.QUOTE_MINIMAL)
spamwriter.writerow(['Spam'] * 5 + ['Baked Beans'])
spamwriter.writerow(['Spam', 'Lovely Spam', 'Wonderful Spam'])