用R中的分组均值替换NA?

时间:2018-10-17 19:41:36

标签: r loops dataframe tibble

我一直坚持尝试用手段代替资产净值,我将非常感谢您的帮助。

我想用一个列中的一组平均值代替一个数据帧中多个列中的NA。在下面的示例中,我想将x1中的NA替换为14.5,因为第1个月中有13和16。NA2中的NA应替换为4.5。

这是我尝试的方式:

library(tidyverse)

df <- tibble(x1 = c(13, NA, 16, 17, 16, 12), x2 = c(1, 4, 4, 3, 5, NA),
         month = c(1, 1, 1, 2, 2, 2))

by_month <- group_by(df, month)

for (i in length(df)){
   for (j in nrow(df[[,i]])){
     if(is.na(df[[j, i]])){
      df[[j, i]] <- summarize(by_month[[j, i]],
                                   group_mean = mean(df[[, i]], na.rm=TRUE))
    }
    else{
      df[[j, i]] <- df[[j, i]]
    }
  }
}

但是,我刚刚得到了我调查的错误“参数“ ..1”丢失,没有默认值“,但这没有帮助。任何帮助都会很棒:)

2 个答案:

答案 0 :(得分:3)

我稍微修改了您的示例,因为您提供的数据框具有不同长度的列,但这应该可以解决您的问题:

首先,我将软件包加载到tidyverse中。然后我按月对数据分组。第二个管道运行mutate_all函数,因此它将自动更改所有列。

library(tidyverse)

df <- tibble(x1 = c(13, NA, 16, 17, 16, 12), x2 = c(1, 4, 3, 5, NA, 4),
             month = c(1, 1, 1, 2, 2, 2))


new_df <- df %>%  group_by(month) %>%
  mutate_all(funs(ifelse(is.na(.), mean(., na.rm = TRUE),.)))

让我知道这是否有帮助。

答案 1 :(得分:0)

这是使用avesapplyx1x2每一列的基础R解决方案。

df[1:2] <- sapply(df[1:2], function(x){
  ave(x, df[[3]], FUN = function(.x) {
    .x[is.na(.x)] <- mean(.x, na.rm = TRUE)
    .x
  })
})


df
## A tibble: 6 x 3
#     x1    x2 month
#  <dbl> <dbl> <dbl>
#1  13       1     1
#2  14.5     4     1
#3  16       4     1
#4  17       3     2
#5  16       5     2
#6  12       4     2