使用NA有效地添加数字列和行,而不知道colnames

时间:2013-11-12 11:22:48

标签: r statistics

这是一个典型的数据框:

df <- data.frame(
  'ID' = c("123A","456B","789C","1011","1213")
  , 'Name' = c("Alice","Bobo","Jack","Jill","Zoro")
  , 'Quizzes' = c(13,8,14,NA,15)
  , 'Midterm' = c(13,4,16,7,12)
  , 'Final' = c(15,9,13,6,13)
)
df
    ID  Name Quizzes Midterm Final
1 123A Alice      13      13    15
2 456B  Bobo       8       4     9
3 789C  Jack      14      16    13
4 1011  Jill      NA       7     6
5 1213  Zoro      15      12    13

我想添加数字列(不包括'ID''Name')来计算'Grade'列。然后我想计算每个数字列的均值,中位数,最大值,最小值和标准差。最后,我想将统计数据合并到原始数据框中。

一个问题是此名称中的合域名(IDNameQuizzesMidtermFinal)未知。列数也是未知的,它可能有2个标识列(本例中为IDName)或更多,可能有3个等级组件(QuizzesMidterm ,在此示例中为Final或更多。

但是,我知道第一列始终包含唯一标识符。

可能缺少数据和/或NA数据。

按列添加(水平添加)时,我想假设缺失的和NAs被视为零。当按行添加(或计算任何其他统计数据)(垂直添加)时,我想忽略缺失值和NA值(将它们视为异常值)。

我的困难分为两类:1)处理NA和缺失值,2)当字母未知时合并数据帧。

df$Means  = rowMeans(df[sapply(df, is.numeric)])
df
    ID  Name Quizzes Midterm Final    Means
1 123A Alice      13      13    15 13.66667
2 456B  Bobo       8       4     9  7.00000
3 789C  Jack      14      16    13 14.33333
4 1011  Jill      NA       7     6       NA
5 1213  Zoro      15      12    13 13.33333

我知道如何删除NAs:

df$Means  = rowMeans(df[sapply(df, is.numeric)], na.rm = TRUE)
df
    ID  Name Quizzes Midterm Final    Means
1 123A Alice      13      13    15 13.66667
2 456B  Bobo       8       4     9  7.00000
3 789C  Jack      14      16    13 14.33333
4 1011  Jill      NA       7     6  6.50000
5 1213  Zoro      15      12    13 13.33333

但我想把它们视为零。

第一个问题:是否有单行将NAs视为零(0)而不交换数据帧?

编辑1:让我澄清一下,我知道如何在数据框中用df[is.na(df)] <-0替换为0的NA,但我希望保持原始数据框的数据不变,保持不变NAs,而计算意味着NAs被视为零。

一点解释:sapply(df, is.numeric)旨在忽略前两列,我的副本名称不知道。

我还想将统计数据合并到原始数据框中,以方便显示和导出到工作表。我有一部分,但不是很远。我尝试调整此处描述的解决方案Add new row to dataframe, at specific row-index, not appended?

# create a dataframe of sums
data.frame(ID="Mean",t(colMeans(df[sapply(df, is.numeric)], na.rm = TRUE)))
    ID Quizzes Midterm Final
1 Mean    12.5    10.4  11.2

# add sums to original data frame
newRow <- data.frame(ID="Mean",t(colMeans(df[sapply(df, is.numeric)], na.rm = TRUE)))

insertRow <- function(df, r, p) {
  # df = data frame
  # r  = new row
  # p  = position
  df[seq(p+1,nrow(df)+1),] <- df[seq(p,nrow(df)),]
  df[p,] <- r
  df
} 

insertRow(df[,-1],newRow,nrow(df)+1)

    Name Quizzes Midterm Final
1  Alice    13.0    13.0  15.0
2   Bobo     8.0     4.0   9.0
3   Jack    14.0    16.0  13.0
4   Jill      NA     7.0   6.0
5   Zoro    15.0    12.0  13.0
NA  <NA>    12.5    10.4  11.2
7   <NA>      NA      NA    NA
Warning message:
In `[<-.factor`(`*tmp*`, iseq, value = 1L) :
  invalid factor level, NA generated

第二个问题:如何有效地将我的垂直总和(以及平均值和中位数等)合并回原始数据框?回想一下,我不知道colnames,我只知道第一列是唯一的标识符。 修改:解决方案如下所述。

编辑2:我避免使用rbind,因为我正在寻找高效解决方案。网址Add new row to dataframe, at specific row-index, not appended?表示“这是一种避免(通常很慢)rbind调用的解决方案。”我不知道为什么rbind可能会很慢,但我按照建议尝试实现解决方案来解决我目前的问题。

谢谢!如果需要,请务必要求澄清。

编辑3:

我上面引用的帖子Add new row to dataframe, at specific row-index, not appended?实际上有一个“有效”的解决问题的方法,避免了上面使用insertRow函数描述的奇怪行为(我必须补充一点,奇怪的行为很可能是结果我误用了这个功能)。这是一个有效的功能,并解决了我的第二个问题:

insertRow2 <- function(df, r, p) {
  df <- rbind(df,r)
  df <- df[order(c(1:(nrow(df)-1),p-0.5)),]
  row.names(df) <- 1:nrow(df)
  return(df)  
}

insertRow2(df[,-1],newRow,nrow(df)+1)

   Name Quizzes Midterm Final
1 Alice    13.0    13.0  15.0
2  Bobo     8.0     4.0   9.0
3  Jack    14.0    16.0  13.0
4  Jill      NA     7.0   6.0
5  Zoro    15.0    12.0  13.0
6  Mean    12.5    10.4  11.2

至于我的第一个问题,由于没有一个单行班,我创建了这样的自定义函数:

colMeanz <- function(df) {
    df[is.na(df)] <- 0
    return(colMeans(df))
}

相当不优雅,但你去了。感谢Llopis提供的帮助。

对上下文的额外解释:在计算一个学生的平均值时,将NA视为零是有意义的,而在计算整个类的均值时,使用'na.rm = TRUE'来处理NA是有意义的。

1 个答案:

答案 0 :(得分:1)

假设没有名字,我已经这样做来测试它

names(df)<- NULL

第一个问题:要将数据的de NA值更改为0,您可以执行df [is.na(df)]&lt; -0(有更多解决方案,但这可能会做,只是在这里搜索stackflow)

df[is.na(df)] <- 0
#    NA    NA NA NA NA
#1 123A Alice 13 13 15
#2 456B  Bobo  8  4  9
#3 789C  Jack 14 16 13
#4 1011  Jill  0  7  6
#5 1213  Zoro 15 12 13

第二个问题:您可以cbind将新数据加入到最后一列,cbind加入df末尾的新行。作为示例,该数据接近平均值。我不确定你需要处理rbind函数使用的时间,如果它只有不到100行,那就非常好了。

vector <- c(14, 7, 14, 4, 13)
df <- cbind(df, vector)
#     1     2  3  4  5 vector  #Note that the name is the name of the vector
#1 123A Alice 13 13 15     14
#2 456B  Bobo  8  4  9      7
#3 789C  Jack 14 16 13     14
#4 1011  Jill  0  7  6      4
#5 1213  Zoro 15 12 13     13

要更改名称,您可以{name {1}}作为名称。您想要获得的名称向量。为了做到这一点,中间人就是这样,你可以使用一个应用函数,但我不太了解你如何...