R:我设置stringsAsFactors = F,但仍然得到“无效因子级别,NA生成”错误

时间:2014-07-07 23:00:54

标签: r

有人可以帮我解决这个问题吗?非常感谢任何建议!

我开始时:

A <- data.frame(stringsAsFactors = F)
A <- edit(A)

然后我为A填写了一些值,所以它看起来像这样:

A
  var1  var2
1    a x,y,z
2    b   p,q
3    c   g,h

我的目标是以这种形式获得数据框:

  var1  var2
1    a     x
2    a     y
3    a     z
4    b     p
5    b     q  
6    c     g
7    c     h

这就是我尝试实现它的方式:

A2 <- data.frame(stringsAsFactors = F)
for(i in 1:nrow(A)){
  if(grepl(",", A[i,2])){
    split <- unlist(strsplit(A[i,2], ","))

    for(j in 1:length(split)){
        newrow <- c(A[i,1],split[j])
        A2 <- rbind(A2, newrow)
    }
  }else{
    A2 <- rbind(A2, A[i,])
  }
}

但我收到警告信息:

Warning messages:
1: In `[<-.factor`(`*tmp*`, ri, value = "y") :
  invalid factor level, NA generated
2: In `[<-.factor`(`*tmp*`, ri, value = "z") :
  invalid factor level, NA generated
3: In `[<-.factor`(`*tmp*`, ri, value = "b") :
  invalid factor level, NA generated
4: In `[<-.factor`(`*tmp*`, ri, value = "p") :
  invalid factor level, NA generated
5: In `[<-.factor`(`*tmp*`, ri, value = "b") :
  invalid factor level, NA generated
6: In `[<-.factor`(`*tmp*`, ri, value = "q") :
  invalid factor level, NA generated
7: In `[<-.factor`(`*tmp*`, ri, value = "c") :
  invalid factor level, NA generated
8: In `[<-.factor`(`*tmp*`, ri, value = "g") :
  invalid factor level, NA generated
9: In `[<-.factor`(`*tmp*`, ri, value = "c") :
  invalid factor level, NA generated
10: In `[<-.factor`(`*tmp*`, ri, value = "h") :
  invalid factor level, NA generated

1 个答案:

答案 0 :(得分:5)

您的问题是stringsAsFactors不是data.frame记住的属性。这仅在初始data.frame创建期间使用,并适用于作为参数传递的所有值。它根本不会影响您可能添加的未来值。

此外,您将遇到rbind没有列的data.frame问题。 R喜欢确保列名匹配,例如使用rbind时,显然情况并非如此。另外,当您rbind访问data.frame时,它会将对象转换为data.frame,然后尝试添加值,但这次您无法设置stringsAsFactors以便它使用默认值(TRUE)。您将使用字符列显式创建自己的data.frame。这是你可以重写循环的一种方法

A2 <- data.frame(var1=character(), var2=character(), stringsAsFactors = F)
for(i in 1:nrow(A)){
  if(grepl(",", A[i,2])){
    split <- unlist(strsplit(A[i,2], ","))

    for(j in 1:length(split)){
        newrow <- c(var1=A[i,1],var2=split[j])
        A2 <- rbind(A2, data.frame(as.list(newrow), stringsAsFactors=F))
    }
  }else{
    A2 <- rbind(A2, A[i,])
  }
}

话虽如此,cSplit helper function对于此类内容非常有用,如果您不介意依赖data.table

您可能还会执行类似

的操作
A2 <- do.call(rbind, with(A, Map(expand.grid, 
     var1 = var1, 
     var2 = strsplit(var2, ",")
)))

使用基函数来执行与基函数的拆分和绑定,而无需循环。