我有四个data.frames,它们都有相同的列,是第一个相同的列。在变量列中有一些NA。
首先,我想用data.frame的名称替换每个data.frame中的任何值(不是NA)。 其次,我想合并data.frames。在这种情况下,对于每个NA,将会有一些其他data.frame,它将具有一个值,因此我将以每个填充了值的单元格(或data.frames的名称)结束。
以下是两个data.frames的示例:
>A
name Q W E R T
g1 NA NA 4 NA 0
g2 3 2 NA 4 5
g3 NA 1 NA 0 0
g4 0 NA NA 1 9
>B
name Q W E R T
g1 2 4 NA 1 NA
g2 NA NA 5 NA NA
g3 5 NA 0 NA NA
g4 NA 6 4 NA NA
>result
name Q W E R T
g1 B B A B A
g2 A A B A A
g3 B A B A A
g4 A B B A A
我尝试了一些merge()和union()选项。此外,我试图调整类似问题的答案,但我似乎无法解决这个问题。
Creating a function to replace NAs from one data.frame with values from another
Merging data frames with missing values in R
提前谢谢!
答案 0 :(得分:4)
这可能不适合您,但对于提供的数据......
A <- data.frame(Q=c(NA, 3, NA, 0),
W=c(NA, 2, 1, NA),
E=c(4, NA, NA, NA),
R=c(NA, 4, 0, 1),
T=c(0,5,0,9), row.names=paste0('g', 1:4), stringsAsFactors=FALSE)
B <- data.frame(Q=c(2, NA, 5, NA),
W=c(4, NA, NA, 6),
E=c(NA, 5, 0, 4),
R=c(1, NA, NA, NA),
T=c(NA, NA, NA, NA), row.names=paste0('g', 1:4), stringsAsFactors=FALSE)
在A
不是NA
的任何地方,结果都是“A”。只要B
不是NA
result <- A
result[!is.na(A)] <- "A"
result[!is.na(B)] <- "B"
# Q W E R T
#g1 B B A B A
#g2 A A B A A
#g3 B A B A A
#g4 A B B A A
答案 1 :(得分:4)
我已经为此编写了一个软件包,因为我反复向数据库文盲的人发送部分重叠的excel文件。
我将它上传到CRAN,很快就会推出。那么该怎么办呢
> install.packages("datamerge")
> library(datamerge)
> version.merge(A, B, add.values=TRUE)
Rows: 4 from `A` #1
0 from `B` #2
Columns:
Q Origin: `A` #1
Imputed 2 values from `B` #2
W Origin: `A` #1
Imputed 2 values from `B` #2
E Origin: `A` #1
Imputed 3 values from `B` #2
R Origin: `A` #1
Imputed 1 values from `B` #2
T Origin: `A` #1
Q W E R T
g1 2 4 4 1 0
g2 3 2 5 4 5
g3 5 1 0 0 0
g4 0 6 4 1 9
如果您想在CRAN之前试用它,可以从http://www.anst.uu.se/chrba104/datamerge_1.0-1.tar.gz
获取