我试图将一些数据从XML文件导入到R data.frame中。 虽然我对R很有经验,但我之前从未使用过XML,所以这一切对我来说都是新鲜事,我觉得有点迷失。
以下提供了XML示例:
<ArchivedIncident ID="100">
<attributes>
<entry>
<key>TEST1</key>
<value>
<type>S</type>
<value/>
</value>
</entry>
<entry>
<key>TEST2</key>
<value>
<type>S</type>
<value>12</value>
</value>
</entry>
<entry>
<key>TEST3</key>
<value>
<type>T</type>
<value>A</value>
</value>
</entry>
<entry>
<key>TEST4</key>
<value>
<type>S</type>
<value/>
</value>
</entry>
</attributes>
</ArchivedIncident>
<ArchivedIncident ID="101">
<attributes>
<entry>
<key>TEST1</key>
<value>
<type>S</type>
<value>BLAH</value>
</value>
</entry>
<entry>
<key>TEST2</key>
<value>
<type>S</type>
<value/>
</value>
</entry>
<entry>
<key>TEST3</key>
<value>
<type>T</type>
<value/>
</value>
</entry>
<entry>
<key>TEST4</key>
<value>
<type>S</type>
<value/>
</value>
</entry>
</attributes>
</ArchivedIncident>
我想要完成的是一个R-data.frame,如下所示:
ID TEST1 TEST2 TEST3 TEST4
100 NA 12 A NA
101 BLAH NA NA NA
到目前为止我想出了什么:
使用xml2包,我可以使用以下方式阅读ID:
require(xml2)
doc <- read_xml("./data/file.xml")
df <- data.frame(
ID = xml_attr( xml_find_all( doc, ".//ArchivedIncident" ), "ID" )
)
到目前为止一切顺利,但现在我已经失去了如何提取其余部分。有多个节点,全部命名为&#34;条目&#34;,&#34;值&#34;和&#34;键入&#34;。如何从(用作列名)中提取文本,以及此键的值(后面是以下内容。
复杂因素是,不是每个人都有价值。我想插入一个&#34; NA&#34;对于空值。 在另一种情况下,我可以使用自定义功能,但我不确定(因为我不知道如何提取正确的文本),如果这将在这里工作。
L <- xml_find_all(doc, ".//ArchivedIncident")
FindAllValues <- function(node){
tmp <- lapply(L, xml_find_all, paste0(".//", node))
tmp <- lapply(tmp, xml_text)
tmp[!sapply(tmp, function(y) length(y == 0))] <- NA
return(tmp)
}
答案 0 :(得分:2)
library(xml2)
library(tidyverse)
doc <- read_xml("file.xml")
xml_find_all(doc, ".//ArchivedIncident") %>% # iterate over each incident
map_df(~{
set_names(
xml_find_all(.x, ".//value/value") %>% xml_text(), # get entry values
xml_find_all(.x, ".//key") %>% xml_text() # get entry keys (column names)
) %>%
as.list() %>% # turn named vector to list
flatten_df() %>% # and list to df
mutate(ID = xml_attr(.x, "ID")) # add id
}) %>%
type_convert() %>% # let R convert the values for you
select(ID, everything()) # get it in the order you likely want
## # A tibble: 2 x 5
## ID TEST1 TEST2 TEST3 TEST4
## <int> <chr> <int> <chr> <chr>
## 1 100 <NA> 12 A <NA>
## 2 101 BLAH NA <NA> <NA>