R& XML - 正确格式化数据框架

时间:2016-04-05 15:46:54

标签: xml r nodes

我想从XML文件创建数据框。我只需要特定的节点,并希望以一种我可以轻松处理数据的方式进行排列。

我只对不同<stroke>节点的内容感兴趣。 我需要的是<starttime><endtime>,还有<bounds>所有子节点和所有<sample>个节点<x><y>和{{1} }子节点。

这是我目前的代码:

<time>

包含笔画数据的数据框的有趣部分如下所示:

file <- "1.xml" xmlfile <- xmlTreeParse(file) xmltop <- xmlRoot(xmlfile) values <- xmlSApply(xmltop, function(x) xmlSApply(x, xmlValue)) df <- data.frame(t(values),row.names=NULL)

似乎所有子节点的值都排队等待,因此很难使用它。那里发生了什么,我该怎么做才能正确格式化?

这是我的XML数据的快照:

UnassignedStrokes


1 个答案:

答案 0 :(得分:1)

我发现rvest是处理xml文件的最佳软件包。以下不是一个完整的解决方案,但它应该足以让你开始。

library(rvest)

myxml<-read_xml("text.xml")
#find the only the stroke nodes
stroke<-xml_nodes(myxml,"stroke")
#extract the start and end times
starttime<-xml_text(xml_nodes(stroke, "starttime"))
endtime<-xml_text(xml_nodes(stroke, "endtime"))
#find the bounds nodes under each stroke node
bounds<-xml_nodes(stroke, "bounds")
#extract out the x, y width and heigth from each bound node
x<-xml_text(xml_nodes(bounds, "x"))
y<-xml_text(xml_nodes(bounds, "y"))
width<-xml_text(xml_nodes(bounds, "width"))
height<-xml_text(xml_nodes(bounds, "height"))

#save to dataframe
df<-data.frame(starttime, endtime, x, y, width, height)

这段代码假设每个&#34;笔画&#34;节点只有1个开始时间,结束时间和1&#34;界限&#34;节点。由于有多个&#34;样本&#34;每个父母的节点&#34; stroke&#34;需要注意将每个子节点分开到父节点。我将在这里开始:

samples<-sapply(stroke, FUN=xml_nodes, xpath="sample")
祝你好运。