Question

如果我有两个具有相同列名的data.frame，我可以使用rbind创建一个数据帧。但是，如果我有一个是因素而另一个是int，我会收到这样的警告：

警告信息：在[<-.factor（*tmp*，ri，值= c（1L，1L，0L， 0L，0L，1L，1L，：无效因子水平，NA生成

以下是问题的简化：

t1 <- structure(list(test = structure(c(1L, 1L, 2L, 1L, 1L, 1L, 1L, 
1L, 1L, 2L), .Label = c("False", "True"), class = "factor")), .Names = "test", row.names = c(NA, 
-10L), class = "data.frame")
t2 <- structure(list(test = c(1L, 1L, 0L, 0L, 0L, 1L, 1L, 1L, 1L, 1L
)), .Names = "test", row.names = c(NA, -10L), class = "data.frame")
rbind(t1, t2)

使用单列，这很容易理解，但当它是十几个或更多因素的一部分时，可能很难。有什么警告信息告诉我要查看哪一列？除此之外，了解哪一列出错是一种很好的技术？

Answer 1

您可以使用class和mapply敲击一个简单的小比较脚本，以比较由于不匹配的数据类型而导致rbind分解的位置，例如：

one <- data.frame(a=1,b=factor(1))
two <- data.frame(b=2,a=2)

common <- intersect(names(one),names(two))
mapply(function(x,y) class(x)==class(y), one[common], two[common])

#    a     b 
# TRUE FALSE

Answer 2

根据thelatemail的回答，这是一个比较两个data.frames进行rbinding的函数：

mergeCompare <- function(one, two) {
  cat("Distinct items: ", setdiff(names(one),names(two)), setdiff(names(two),names(one)), "\n")
  print("Non-matching items:")
  common <- intersect(names(one),names(two))
  print (mapply(function(x,y) {class(x)!=class(y)}, one[common], two[common]))
}

我如何理解rbind的警告？

2 个答案: