没有名字的rbind data.frames

时间:2012-11-28 06:36:29

标签: r dataframe names rbind

我试图弄清楚为什么rbind函数在没有名称的情况下加入data.frames时没有按预期工作。 这是我的测试:

test <- data.frame(
            id=rep(c("a","b"),each=3),
            time=rep(1:3,2),
            black=1:6,
            white=1:6,
            stringsAsFactors=FALSE
            )

# take some subsets with different names
pt1 <- test[,c(1,2,3)]
pt2 <- test[,c(1,2,4)]

# method 1 - rename to same names - works
names(pt2) <- names(pt1)
rbind(pt1,pt2)

# method 2 - works - even with duplicate names
names(pt1) <- letters[c(1,1,1)]
names(pt2) <- letters[c(1,1,1)]
rbind(pt1,pt2)

# method 3 - works  - with a vector of NA's as names
names(pt1) <- rep(NA,ncol(pt1))
names(pt2) <- rep(NA,ncol(pt2))
rbind(pt1,pt2)

# method 4 - but... does not work without names at all?
pt1 <- unname(pt1)
pt2 <- unname(pt2)
rbind(pt1,pt2)

这对我来说有点奇怪。我错过了一个很好的理由,为什么这不应该开箱即用?

修改其他信息

使用@ JoshO'Brien对debug的建议,我可以确定在if函数的rbind.data.frame语句部分中发生的错误

if (is.null(pi) || is.na(jj <- pi[[j]]))

(此处代码的在线版本:http://svn.r-project.org/R/trunk/src/library/base/R/dataframe.R起始于:“ ###以下是rbind和cbind的方法。”)

从单步执行程序开始,此pi的值似乎没有设置,因此程序会尝试将内置常量pi编入索引,如pi[[3]]和错误。

根据我的判断,由于pi已初始化为clabs的早期行,内部NULL对象似乎未设置:

if (is.null(clabs)) clabs <- names(xi) else { #pi gets set here

我陷入困境,试图解决这个问题,但会在一起进行更新。

1 个答案:

答案 0 :(得分:6)

因为unname()&amp;显式指定NA作为列标题不是相同的操作。当列名都是NA时,则rbind()是可能的。由于rbind()采用数据框的名称/名称,因此结果不匹配&amp;因此rbind()失败了。

以下是一些有助于了解我的意思的代码:

> c1 <- c(1,2,3)
> c2 <- c('A','B','C')
> df1 <- data.frame(c1,c2)
> df1
  c1 c2
1  1  A
2  2  B
3  3  C
> df2 <- data.frame(c1,c2) # df1 & df2 are identical
>
> #Let's perform unname on one data frame &
> #replacement with NA on the other
>
> unname(df1)
  NA NA
1  1  A
2  2  B
3  3  C
> tem1 <- names(unname(df1))
> tem1
NULL
>
> #Please note above that the column headers though showing as NA are null
>
> names(df2) <- rep(NA,ncol(df2))
> df2
  NA NA
1  1  A
2  2  B
3  3  C
> tem2 <- names(df2)
> tem2
[1] NA NA
> 
> #Though unname(df1) & df2 look identical, they aren't
> #Also note difference in tem1 & tem2
>
> identical(unname(df1),df2)
[1] FALSE
> 

我希望这会有所帮助。名称每个都显示为NA,但这两个操作不同。

因此,将其列标题替换为NA的两个数据框可以是“rbound”,但是没有任何列标题的两个数据框(使用unname()实现)不能。