通过指数填写R中的大量NA数据?

时间:2016-02-12 02:43:57

标签: r na missing-data

我根据三件事索引价格数据:

州,日期和UPC(即产品代码)。

我有一堆NA的价格。

我试图通过以下方式填充NA:对于给定的索引缺失价格(S,D,UPC),请填写具有相同S和UPC的所有数据点的平均价格。即,取平均日期。

必须有一种非常简单的方法来做到这一点,因为这很简单。我一直在使用for循环,但我现在意识到这是非常低效的,我想使用一个函数,比如plyr或dplyr中的函数,它将尽可能少地执行所有操作。

upc=c(1153801013,1153801013,1153801013,1153801013,1153801013,1153801013,2105900750,2105900750,2105900750,2105900750,2105900750,2173300001,2173300001,2173300001,2173300001)
date=c(200601,200602,200603,200604,200601,200602,200601,200602,200603,200601,200602,200603,200604,200605,200606)
price=c(26,28,NA,NA,23,24,85,84,NA,81,78,24,19,98,NA)
state=c(1,1,1,1,2,2,1,1,2,2,2,1,1,1,1)

# This is what I have:
data <- data.frame(upc,date,state,price)

# This is what I want:
price=c(26,28,27,27,23,24,85,84,79.5,81,78,24,19,98,47)
data2 <- data.frame(upc,date,state,price)

有什么建议吗?感谢。

3 个答案:

答案 0 :(得分:8)

ave与多个分组变量一起使用,然后使用以下方法替换NA值:

with(data,
  ave(price, list(upc,state), FUN=function(x) replace(x,is.na(x),mean(x,na.rm=TRUE) ) )
)
# [1] 26.0 28.0 27.0 27.0 23.0 24.0 85.0 84.0 79.5 81.0 78.0 24.0 19.0 98.0 47.0

答案 1 :(得分:6)

您可以通过upc和state构建一个均值矩阵:

meanmtx <- tapply(dat$price, dat[c('upc','state')], mean, na.rm=TRUE)

该矩阵的字符索引可与upcstate中的值匹配。那么然后使用2列字符索引将这些放入空的“槽”中:

dat$price[is.na(dat$price)] <-  
          meanmtx[  cbind( as.character(dat[  is.na(dat$price), 'upc']), 
                           as.character(dat[  is.na(dat$price),'state']) )  ]

> dat
          upc   date state price
1  1153801013 200601     1  26.0
2  1153801013 200602     1  28.0
3  1153801013 200603     1  27.0
4  1153801013 200604     1  27.0
5  1153801013 200601     2  23.0
6  1153801013 200602     2  24.0
7  2105900750 200601     1  85.0
8  2105900750 200602     1  84.0
9  2105900750 200603     2  79.5
10 2105900750 200601     2  81.0
11 2105900750 200602     2  78.0
12 2173300001 200603     1  24.0
13 2173300001 200604     1  19.0
14 2173300001 200605     1  98.0
15 2173300001 200606     1  47.0

答案 2 :(得分:4)

以下是使用na.aggregate(来自zoo)和data.table的另一个紧凑选项。默认情况下,na.aggregate会将NA值替换为感兴趣列的mean。它还有一个FUN参数,以防我们想要medianminmax或我们想要的任何内容替换NA。按操作分组可以通过dplyr / data.table / base R方法完成。使用data.table,我们将'data.frame'转换为'data.table'(setDT(data)),按'upc','state'分组,我们分配(:=)''价格'作为'价格'的na.aggregate

library(data.table)
library(zoo)
setDT(data)[,  price:= na.aggregate(price) , .(upc, state)]