如何以更优雅的方式有条理地组合列表中的data.frame对象?

时间:2016-11-10 12:02:54

标签: r dataframe

我在列表中有data.frame,我打算有条件地合并特定的data.frame对象,其中合并第二个,第三个data.frame对象而不重复,然后将它与第一个data.frame对象合并。但是,我使用rbind函数来完成这个任务,但我的方法并不优雅。任何人都可以帮我改进解决方案吗?如何实现可用于动态函数式编程的更兼容的解决方案?如何获得所需的输出?任何的想法 ?

可重复的例子:

dfList <- list(
  DF.1 = data.frame(red=c(1,2,3), blue=c(NA,1,2), green=c(1,1,2)),
  DF.2 = data.frame(red=c(2,3,NA), blue=c(1,2,3), green=c(1,2,4)),
  DF.3 = data.frame(red=c(2,3,NA,NA), blue=c(1,2,NA,3), green=c(1,2,3,4))
)

虚拟方式:

rbind(dfList[[1L]], unique(rbind(dfList[[2L]], dfList[[3L]])))

显然,我在函数式编程中的应用并不优雅。如何才能优雅地实现这一目标?

期望的输出:

red blue green
1    1   NA     1
2    2    1     1
3    3    2     2
11   2    1     1
21   3    2     2
31  NA    3     4
6   NA   NA     3

如何更优雅,更有效地改进我的解决方案?提前致谢

2 个答案:

答案 0 :(得分:3)

执行此操作的最佳(最简单,最快捷的方法)是data.table::rbindlist

它会像这样工作:

library(data.table)
dfList <- list(
  DF.1 = data.table(red=c(1,2,3), blue=c(NA,1,2), green=c(1,1,2)),
  DF.2 = data.table(red=c(2,3,NA), blue=c(1,2,3), green=c(1,2,4)),
  DF.3 = data.table(red=c(2,3,NA,NA), blue=c(1,2,NA,3), green=c(1,2,3,4))
)

# part 1: list element 1
dt_1 <- dfList[[1]]

# part 2: all other list elements (in your case 2 and 3)
dt_2 <- unique(rbindlist(dfList[-1]))

# use rbindlist to bind the rows together
dt_all <- rbindlist(list(dt_1, dt_2))

注释

我的解决方案非常接近您提出的解决方案。我认为&#34;丑陋&#34;关于这种方式是合并数据集和解除第一个元素(并以不同的方式对待)的边缘情况。最好的解决方案可能是退一步思考基本思想并使用数据集中的附加变量(即df1然后df2_3)来解决它,我认为这是R-way。

这个想法的东西看起来像这样:

myList2 <- list(
  DF.1 = data.table(red=c(1,2,3), blue=c(NA,1,2), green=c(1,1,2), var = "df1"),
  DF.2 = data.table(red=c(2,3,NA), blue=c(1,2,3), green=c(1,2,4), var = "other"),
  DF.3 = data.table(red=c(2,3,NA,NA), blue=c(1,2,NA,3), green=c(1,2,3,4), var = "other")
)

dt <- rbindlist(myList2)
unique(dt)
# red blue green   var
# 1:   1   NA     1   df1
# 2:   2    1     1   df1
# 3:   3    2     2   df1
# 4:   2    1     1 other
# 5:   3    2     2 other
# 6:  NA    3     4 other
# 7:  NA   NA     3 other

答案 1 :(得分:1)

rbind只有基数为R的data.frames列表的方法是do.call(list, rbind)(参见this question,它也提供了一些替代方案)。

如果您只想要唯一的行,则可以使用unique

进行跟进
 unique(do.call(dfList, rbind))