我正在努力将nexted xml数据移动到分层数据框中。由于SO的帮助,我能够从xml中获取所有数据。但是,现在,我正在努力清理我在输出之前提取并对其进行整形的数据,因为我将这样做数千次。
更新:这就是我最终想要的东西。我似乎无法动态地仅为Time
获取value
和channel
。每个文件的频道名称都会更改。
当channel = txt1[0]
(对于此文件,txt1[0]="blah"
)到channel = txt1[8]
时(对于此文件,txt1[8]="lir"
)
channel Time value
0 blah 2013-05-01 00:00:00 258
1 blah 2013-05-01 00:01:00 259
...
n-2 lir 2013-05-01 23:57:00 58
n-1 lir 2013-05-01 23:58:00 37
n lir 2013-05-01 23:59:00 32
以下是我的xml文件的获取和结构化方式:
import requests
from lxml import etree, objectify
r = requests.get('https://api.stuff.us/place/getData? security_key=key&period=minutes&startTime=2013-05-01T00:00&endTime=2013-05-01T23:59&sort=channel') #edited for privacy
root = etree.fromstring(r.text)
xml_new = etree.tostring(root, pretty_print=True)
print xml_new[300:900] #gives xml output to show structure
<startTime>2013-05-01 00:00:00</startTime>
<endTime>2013-05-01 23:59:00</endTime>
<summaryPeriod>minutes</summaryPeriod>
<data>
<channel channel="97925" name="blah">
<Time Time="2013-05-01 00:00:00">
<value>258</value>
</Time>
<Time Time="2013-05-01 00:01:00">
<value>259</value>
</Time>
<Time Time="2013-05-01 00:02:00">
<value>258</value>
</Time>
<Time Time="2013-05-01 00:03:00">
<value>257</value>
</Time>
昨天,我在这里询问了SO并解决了将time
和value
值纳入数据框的问题:Parsing xml to pandas data frame throws memory error
dTime=[]
dvalue=[]
for df in root.xpath('//channel/Time'):
## Iterate over attributes of Time but Time only has one attrib [@Time]
for attrib in df.attrib:
dTime.append(df.attrib[attrib])
## value is a child of time, and iterate
subfields = df.getchildren()
for subfield in subfields:
dvalue.append(subfield.text)
pef=DataFrame({'Time':dTime,'values':dvalue})
pef
<class 'pandas.core.frame.DataFrame'>
Int64Index: 12960 entries, 0 to 12959
Data columns (total 2 columns):
Time 12960 non-null values
value 12960 non-null values
dtypes: object(2)
pef[:5]
Time value
0 2013-05-01 00:00:00 258
1 2013-05-01 00:01:00 259
2 2013-05-01 00:02:00 258
3 2013-05-01 00:03:00 257
4 2013-05-01 00:04:00 257
现在,我正在为每个频道(结构分别为channel
- &gt; Time
- &gt; value
)分别处理此数据,以便我可以插入channel作为数据集的一列。
因此,我决定动态获取通道名称,并搜索数据。对于此文件,有九个单独的有效通道名称,但对于所有文件(数字或名称)它们并不相同。
txt1 = root.xpath('//channel/@name') #this prints all channel names!
len(txt1)
Out[67]: 9
print txt1
['blah', 'b', 'c', 'd', 'vd', 'ef', 'fg', 'kc', 'lir']
我以为我可以动态获取数据(使用之前的解决方案但添加@name=txt1[0]
)并最终执行for i = 0 to len(txt1), ...
来完成所有这些操作。但我得到一个空数据框:
dTime=[]
dchannel = txt1[0] # can hardcode, but need to be able to get all
dvalue=[]
for df in root.xpath('//channel[@name=txt1[0]]/Time'):
#CODE NEEDED: to get dchannel to dynamically = channel[@name]
## Iterate over attributes of time for specific channel
for attrib in df.attrib:
dTime.append(df.attrib[attrib])
## value is a child of time, and iterate
subfields = df.getchildren()
for subfield in subfields:
dvalue.append(subfield.text)
perf=DataFrame({'Channel': dchannel,'Time':dTime,'values':dvalue})
perf
Int64Index([], dtype=int64)
Empty DataFrame
如果我对所需属性进行硬编码,例如for df in root.xpath('/*/*/*/channel[@name="blah"]/Time'):
,则会为一个属性打印它,但我无法使其引用txt1[]
。
我尝试引用{0}..., txt1[]
但是它为dchannel属性吐出一个元组(因为它获取了所有txt1而不是获取时间节点的父节点的txt1属性名称。
我查看了XPath文档,并且我已经阅读了lxml教程,我无法弄清楚为什么我的动态搜索不起作用。我是否需要回到.findall()
?如何使用此动态搜索获取txt1
中每个值的数据?
可能有更多的pythonic方法来解决这个问题,例如设置一个获取父项的属性[@name]
,子项的属性[@Time]
,然后是孙子的文本的函数value
,但我还没弄明白该怎么做。
答案 0 :(得分:0)
好的,我解决了这个问题 - 但解决方案仍然很难看。
我很高兴想出来得到我想要的输出。如果有人有一个更干净的方法,我会很乐意看到它。感谢。
dTime=[]
dchannel = []
dvalue=[]
for df in root.xpath('//channel/Time'):
dchannel.append(df.getparent().attrib['name'])
## Iterate over attributes of time for specific channel
for attrib in df.attrib:
dTime.append(df.attrib[attrib])
## value is a child of time, and iterate
subfields = df.getchildren()
for subfield in subfields:
dvalue.append(subfield.text)
perf=DataFrame({'Channel': dchannel,'Time':dTime,'values':dvalue})
perf[:2]
Channel Time value
0 blah 2013-05-01 00:00:00 258
1 blah 2013-05-01 00:01:00 259
2 blah 2013-05-01 00:02:00 258
perf[12957:12960]
Channel Time value
12957 lir 2013-05-01 00:00:00 67
12958 lir 2013-05-01 00:01:00 67
12959 lir 2013-05-01 00:02:00 66
YAY