我想合并一大组数据框(大约30个),每个数据框都有大约200个变量。这些数据集非常相似,但不完全相同。
请在下面找到两个示例数据框:
library(data.table)
library(haven)
df1 <- fread(
"A B C iso year
0 B 1 NLD 2009
1 A 2 NLD 2009
0 Y 3 AUS 2011
1 Q 4 AUS 2011
0 NA 7 NLD 2008
1 0 1 NLD 2008
0 1 3 AUS 2012",
header = TRUE
)
df2 <- fread(
"A B D E iso year
0 1 1 NA ECU 2009
1 0 2 0 ECU 2009
0 0 3 0 BRA 2011
1 0 4 0 BRA 2011
0 1 7 NA ECU 2008
1 0 1 0 ECU 2008
0 0 3 2 BRA 2012
1 0 4 NA BRA 2012",
header = TRUE
)
要重新创建错误:
class(df2$B) <- "anything"
当我执行以下操作
df_merged <- rbindlist(list(df1, df2), fill=TRUE, use.names=TRUE)
数据集显示错误:
Error in rbindlist(list(df1, df2), fill = TRUE, use.names = TRUE) :
Class attribute on column 2 of item 2 does not match with column 2 of item 1.
我该怎么办:
rbindlist
跳过不匹配的列并添加一些后缀。选项1的所需结果
df_merged <- fread(
"A B B.x C D E iso year
0 A NA 1 NA NA NLD 2009
1 Y NA 2 NA NA NLD 2009
0 Q NA 3 NA NA AUS 2011
1 NA NA 4 NA NA AUS 2011
0 0 NA 7 NA NA NLD 2008
1 1 NA 1 NA NA NLD 2008
0 1 NA 3 NA NA AUS 2012
0 NA 1 NA 1 NA ECU 2009
1 NA 0 NA 2 0 ECU 2009
0 NA 0 NA 3 0 BRA 2011
1 NA 0 NA 4 0 BRA 2011
0 NA 1 NA 7 NA ECU 2008
1 NA 0 NA 1 0 ECU 2008
0 NA 0 NA 3 2 BRA 2012
1 NA 0 NA 4 NA BRA 2012",
header = TRUE
)
选项2的所需结果
df_merged <- fread(
"A B C D E iso year
0 3 1 NA NA NLD 2009
1 4 2 NA NA NLD 2009
0 5 3 NA NA AUS 2011
1 5 4 NA NA AUS 2011
0 0 7 NA NA NLD 2008
1 1 1 NA NA NLD 2008
0 1 3 NA NA AUS 2012
0 1 NA 1 NA ECU 2009
1 0 NA 2 0 ECU 2009
0 0 NA 3 0 BRA 2011
1 0 NA 4 0 BRA 2011
0 1 NA 7 NA ECU 2008
1 0 NA 1 0 ECU 2008
0 0 NA 3 2 BRA 2012
1 0 NA 4 NA BRA 2012",",
header = TRUE
)
答案 0 :(得分:1)
我想出了一个解决此问题的 inlegant 解决方案。基本上,我要做的是将列表的第一项的列的属性分配给具有与列表中所有其他项相同名称的列。请记住,此解决方案是有问题的,根据项目的不同,这可能是非常错误的做法,因为它可能会破坏您的数据。但是,如果您需要使用rbindlist
来组合数据帧,那么就可以达到目的
dfs <- list(df1, df2)
varnames <- names(dfs[[1]]) # variable names
vattr <- purrr::map_chr(varnames, ~class(dfs[[1]][[.x]])) # variable attributes
for (i in seq_along(dfs)) {
# assign the same attributes of list 1 to the rest of the lists
for (j in seq_along(varnames)) {
if (varnames[[j]] %in% names(dfs[[i]])) {
class(dfs[[i]][[varnames[[j]]]]) <- vattr[[j]]
}
}
}
df_merged <- data.table::rbindlist(dfs, fill=TRUE, use.names=TRUE)
最佳,
答案 1 :(得分:1)
对@R.Andres Castaneda 的回答更不雅的解决方案是:
当使用 fread
set colClasses = "character"
将所有内容强制转换为字符时,请执行 rbindlist
,然后选择您偏好的方法,以便在之后将所有内容强制转换为合理的内容。
这并不优雅,但我经常发现这是读取不一致数据时最简单的方法。
答案 2 :(得分:0)
我遇到了同样的问题,但尚未找到解决方案。 data.table包最近更新了(2019年4月7日)。我相信此更新是引起问题的原因,以及为什么人们说它对他们有效。请参阅下面链接中的v1.12.2中的功能4和5。
答案 3 :(得分:0)
尝试使用ldply(list, data.frame)
来解决。为我工作,rbindlist()不喜欢日期列。