我试图弄清楚为什么rbind
函数在没有名称的情况下加入data.frames时没有按预期工作。
这是我的测试:
test <- data.frame(
id=rep(c("a","b"),each=3),
time=rep(1:3,2),
black=1:6,
white=1:6,
stringsAsFactors=FALSE
)
# take some subsets with different names
pt1 <- test[,c(1,2,3)]
pt2 <- test[,c(1,2,4)]
# method 1 - rename to same names - works
names(pt2) <- names(pt1)
rbind(pt1,pt2)
# method 2 - works - even with duplicate names
names(pt1) <- letters[c(1,1,1)]
names(pt2) <- letters[c(1,1,1)]
rbind(pt1,pt2)
# method 3 - works - with a vector of NA's as names
names(pt1) <- rep(NA,ncol(pt1))
names(pt2) <- rep(NA,ncol(pt2))
rbind(pt1,pt2)
# method 4 - but... does not work without names at all?
pt1 <- unname(pt1)
pt2 <- unname(pt2)
rbind(pt1,pt2)
这对我来说有点奇怪。我错过了一个很好的理由,为什么这不应该开箱即用?
修改其他信息
使用@ JoshO'Brien对debug
的建议,我可以确定在if
函数的rbind.data.frame
语句部分中发生的错误
if (is.null(pi) || is.na(jj <- pi[[j]]))
(此处代码的在线版本:http://svn.r-project.org/R/trunk/src/library/base/R/dataframe.R起始于:“ ###以下是rbind和cbind的方法。”)
从单步执行程序开始,此pi
的值似乎没有设置,因此程序会尝试将内置常量pi
编入索引,如pi[[3]]
和错误。
根据我的判断,由于pi
已初始化为clabs
的早期行,内部NULL
对象似乎未设置:
if (is.null(clabs)) clabs <- names(xi) else { #pi gets set here
我陷入困境,试图解决这个问题,但会在一起进行更新。
答案 0 :(得分:6)
因为unname()
&amp;显式指定NA作为列标题不是相同的操作。当列名都是NA时,则rbind()
是可能的。由于rbind()
采用数据框的名称/名称,因此结果不匹配&amp;因此rbind()
失败了。
以下是一些有助于了解我的意思的代码:
> c1 <- c(1,2,3)
> c2 <- c('A','B','C')
> df1 <- data.frame(c1,c2)
> df1
c1 c2
1 1 A
2 2 B
3 3 C
> df2 <- data.frame(c1,c2) # df1 & df2 are identical
>
> #Let's perform unname on one data frame &
> #replacement with NA on the other
>
> unname(df1)
NA NA
1 1 A
2 2 B
3 3 C
> tem1 <- names(unname(df1))
> tem1
NULL
>
> #Please note above that the column headers though showing as NA are null
>
> names(df2) <- rep(NA,ncol(df2))
> df2
NA NA
1 1 A
2 2 B
3 3 C
> tem2 <- names(df2)
> tem2
[1] NA NA
>
> #Though unname(df1) & df2 look identical, they aren't
> #Also note difference in tem1 & tem2
>
> identical(unname(df1),df2)
[1] FALSE
>
我希望这会有所帮助。名称每个都显示为NA
,但这两个操作不同。
因此,将其列标题替换为NA
的两个数据框可以是“rbound”,但是没有任何列标题的两个数据框(使用unname()
实现)不能。