Question

在尝试合并多个数据帧时，我收到了一些非常奇怪的东西。救命啊！

我需要通过列'RID'和'VISCODE'合并一堆数据帧。以下是它的外观示例：

d1 = data.frame(ID = sample(9, 1:100), RID = c(2, 5, 7, 9, 12),
            VISCODE = rep('bl', 5),
            value1 = rep(16, 5))

d2 = data.frame(ID = sample(9, 1:100), RID = c(2, 2, 2, 5, 5, 5, 7, 7, 7),
            VISCODE = rep(c('bl', 'm06', 'm12'), 3),
            value2 = rep(100, 9))

d3 = data.frame(ID = sample(9, 1:100), RID = c(2, 2, 2, 5, 5, 5, 9,9,9),
            VISCODE = rep(c('bl', 'm06', 'm12'), 3),
            value3 = rep("a", 9),
            values3.5 = rep("c", 9))

d4 = data.frame(ID =sample(8, 1:100), RID = c(2, 2, 5, 5, 5, 7, 7, 7, 9),
            VISCODE = c(c('bl', 'm12'), rep(c('bl', 'm06', 'm12'), 2), 'bl'),
            value4 = rep("b", 9))

dataList = list(d1, d2, d3, d4)

我查看了标题为"Merge several data.frames into one data.frame with a loop."的问题的答案。我使用了那里建议的reduce方法以及我写的循环：

try1 = mymerge(dataList)

try2 <- Reduce(function(x, y) merge(x, y, all= TRUE,
by=c("RID", "VISCODE")), dataList, accumulate=F)

其中dataList是数据框列表，mymerge是：

mymerge = function(dataList){

L = length(dataList)

mdat = dataList[[1]]

  for(i in 2:L){

    mdat = merge(mdat, dataList[[i]], by.x = c("RID", "VISCODE"),
                                  by.y = c("RID", "VISCODE"), all = TRUE)
  }

mdat
}

对于我的测试数据和我的实际数据的子集，这两者都可以正常工作并产生完全相同的结果。但是，当我使用更大的数据子集时，它们都会崩溃并给我以下错误：match.names（clabs，names（xi））中的错误：名称与以前的名称不匹配。

真正奇怪的是，使用它有效：

  dataList = list(demog[1:50,],
            neurobat[1:50,],
            apoe[1:50,],
            mmse[1:50,],
            faq[1:47, ])

使用此功能失败：

  dataList = list(demog[1:50,],
            neurobat[1:50,],
            apoe[1:50,],
            mmse[1:50,],
            faq[1:48, ])

据我所知，faq第48行没有什么特别之处。同样，使用它可以：

dataList = list(demog[1:50,],
            neurobat[1:50,],
            apoe[1:50,],
            mmse[1:50,],
            pdx[1:47, ])

使用此功能失败：

dataList = list(demog[1:50,],
            neurobat[1:50,],
            apoe[1:50,],
            mmse[1:50,],
            pdx[1:48, ])

pdq中的第48行和pdx中的第48行具有相同的RID和VISCODE值，EXAMDATE的值（我不匹配的值）和ID的不同值（我不匹配的另一件事）。除了匹配的RID和VISCODE之外，我看到它们有什么特别之处。它们不共享任何其他变量名称。同样的情况发生在数据的其他地方没有问题。

要在复杂蛋糕上添加锦上添花，这甚至都不起作用：

dataList = list(demog[1:50,],
            neurobat[1:50,],
            apoe[1:50,],
            mmse[1:50,],
            faq[1:48, 2:3])

其中第2列和第3列是“RID”和“VISCODE”。

48甚至不是神奇的数字，因为这有效：

 dataList = list(demog[1:500,],
            neurobat[1:500,],
            apoe[1:500,],
            mmse[1:457,])

使用mmse [1：458，]失败。

我似乎无法提出导致问题的测试数据。以前有人有这个问题吗？关于如何合并的任何更好的想法？

Answer 1

不确定我不能帮助，但我想我会发布，因为我发现这个搜索有关此错误的帮助。我实际拥有的是：

a <- cbind(b,c)
d <- merge(a,e)

我也遇到了同样的错误。使用a <- data.frame(b,c)解决了问题，但我找不到原因。

object.size(a);1248124200 bytes

object.size(c);1248124032 bytes

所以有些不同。所有课程都相同，str()没有透露任何内容。我很难过。

希望能帮助其他人知道。

合并多个数据框 - match.names（clabs，names（xi））中的错误：名称与先前的名称不匹配

1 个答案: