如何在将多个列值粘贴在一起时省略NA值?

时间:2015-12-23 04:59:08

标签: r

我有一个包含数百列的数据框dd2,我需要做的是将所有这些列值粘贴在一起,省略任何NA值。如果我做这样的事情

apply(a, 1, paste, collapse=",")

它实际上包含NA作为"NA"字符串。我想避免这种情况。我也可以如下所示,但是这会让我一次为每个单独的列工作以获得结果。

result <- cbind(    
    dd2, 
    combination = paste(dd2[,2], replace(dd2[,3], is.na(dd2[,3]), ""), sep = ",")
)

有没有有效的方法呢?以下是示例数据:

dd2 <- structure(c("A", "B", "C", "D", "E", "AK2", "HFM1", NA, "TRR", 
"RTT", NA, "PPT", "TRR", "RTT", NA, "PPT", NA, NA, "GGT", NA), .Dim = c(5L, 
4L), .Dimnames = list(NULL, c("sample_id", "plant", "animal", 
"more")))

2 个答案:

答案 0 :(得分:7)

您可以尝试na.omit()省略值,然后粘贴。此外,您可以使用toString(),因为它等同于paste(..., collapse = ", ")

apply(dd2, 1, function(x) toString(na.omit(x)))
# [1] "A, AK2, PPT"      "B, HFM1, PPT"     "C, TRR"          
# [4] "D, TRR, RTT, GGT" "E, RTT"   

如果您使用的是特定列,则

apply(dd2[, cols], 1, function(x) toString(na.omit(x)))

答案 1 :(得分:0)

dd2 是一个矩阵,在这种情况下,使用 @Rich Scriven 建议的 apply 更合适。如果是数据框,您可以使用 tidyr::unite

dd2 <- data.frame(dd2)
tidyr::unite(dd2, result, plant, animal, more, na.rm = TRUE, sep = ',')

#  sample_id      result
#1         A     AK2,PPT
#2         B    HFM1,PPT
#3         C         TRR
#4         D TRR,RTT,GGT
#5         E         RTT

要组合所有列,您可以使用 everything()

tidyr::unite(dd2, result, dplyr::everything(), na.rm = TRUE, sep = ',')

#         result
#1     A,AK2,PPT
#2    B,HFM1,PPT
#3         C,TRR
#4 D,TRR,RTT,GGT
#5         E,RTT