Question

我有四个data.frames，它们都有相同的列，是第一个相同的列。在变量列中有一些NA。

首先，我想用data.frame的名称替换每个data.frame中的任何值（不是NA）。其次，我想合并data.frames。在这种情况下，对于每个NA，将会有一些其他data.frame，它将具有一个值，因此我将以每个填充了值的单元格（或data.frames的名称）结束。

以下是两个data.frames的示例：

 >A
 name Q  W  E  R  T
 g1   NA NA 4  NA 0
 g2   3  2  NA 4  5
 g3   NA 1  NA 0  0
 g4   0  NA NA 1  9

 >B
 name Q  W  E  R  T
 g1   2  4  NA 1  NA
 g2   NA NA 5  NA NA
 g3   5  NA 0  NA NA
 g4   NA 6  4  NA NA

 >result
 name Q  W  E  R  T
 g1   B  B  A  B  A
 g2   A  A  B  A  A
 g3   B  A  B  A  A
 g4   A  B  B  A  A

我尝试了一些merge（）和union（）选项。此外，我试图调整类似问题的答案，但我似乎无法解决这个问题。

Creating a function to replace NAs from one data.frame with values from another

Merging data frames with missing values in R

提前谢谢！

Answer 1

这可能不适合您，但对于提供的数据......

A <- data.frame(Q=c(NA, 3, NA, 0),
                W=c(NA, 2, 1, NA),
                E=c(4, NA, NA, NA),
                R=c(NA, 4, 0, 1),
                T=c(0,5,0,9), row.names=paste0('g', 1:4), stringsAsFactors=FALSE)

B <- data.frame(Q=c(2, NA, 5, NA),
                W=c(4, NA, NA, 6),
                E=c(NA, 5, 0, 4),
                R=c(1, NA, NA, NA),
                T=c(NA, NA, NA, NA), row.names=paste0('g', 1:4), stringsAsFactors=FALSE)

在A不是NA的任何地方，结果都是“A”。只要B不是NA

，它就会是“B”

result <- A
result[!is.na(A)] <- "A" 
result[!is.na(B)] <- "B"

#   Q W E R T
#g1 B B A B A
#g2 A A B A A
#g3 B A B A A
#g4 A B B A A

Answer 2

我已经为此编写了一个软件包，因为我反复向数据库文盲的人发送部分重叠的excel文件。

我将它上传到CRAN，很快就会推出。那么该怎么办呢

> install.packages("datamerge")
> library(datamerge)
> version.merge(A, B, add.values=TRUE)
Rows:  4 from `A` #1
       0 from `B` #2

Columns:
Q  Origin: `A` #1
   Imputed 2 values from `B` #2
W  Origin: `A` #1
   Imputed 2 values from `B` #2
E  Origin: `A` #1
   Imputed 3 values from `B` #2
R  Origin: `A` #1
   Imputed 1 values from `B` #2
T  Origin: `A` #1
   Q W E R T
g1 2 4 4 1 0
g2 3 2 5 4 5
g3 5 1 0 0 0
g4 0 6 4 1 9

如果您想在CRAN之前试用它，可以从http://www.anst.uu.se/chrba104/datamerge_1.0-1.tar.gz

获取

R - 合并包含NA的同一列中的data.frames

2 个答案: