我根据三件事索引价格数据:
州,日期和UPC(即产品代码)。
我有一堆NA的价格。
我试图通过以下方式填充NA:对于给定的索引缺失价格(S,D,UPC),请填写具有相同S和UPC的所有数据点的平均价格。即,取平均日期。
必须有一种非常简单的方法来做到这一点,因为这很简单。我一直在使用for循环,但我现在意识到这是非常低效的,我想使用一个函数,比如plyr或dplyr中的函数,它将尽可能少地执行所有操作。
upc=c(1153801013,1153801013,1153801013,1153801013,1153801013,1153801013,2105900750,2105900750,2105900750,2105900750,2105900750,2173300001,2173300001,2173300001,2173300001)
date=c(200601,200602,200603,200604,200601,200602,200601,200602,200603,200601,200602,200603,200604,200605,200606)
price=c(26,28,NA,NA,23,24,85,84,NA,81,78,24,19,98,NA)
state=c(1,1,1,1,2,2,1,1,2,2,2,1,1,1,1)
# This is what I have:
data <- data.frame(upc,date,state,price)
# This is what I want:
price=c(26,28,27,27,23,24,85,84,79.5,81,78,24,19,98,47)
data2 <- data.frame(upc,date,state,price)
有什么建议吗?感谢。
答案 0 :(得分:8)
将ave
与多个分组变量一起使用,然后使用以下方法替换NA
值:
with(data,
ave(price, list(upc,state), FUN=function(x) replace(x,is.na(x),mean(x,na.rm=TRUE) ) )
)
# [1] 26.0 28.0 27.0 27.0 23.0 24.0 85.0 84.0 79.5 81.0 78.0 24.0 19.0 98.0 47.0
答案 1 :(得分:6)
您可以通过upc和state构建一个均值矩阵:
meanmtx <- tapply(dat$price, dat[c('upc','state')], mean, na.rm=TRUE)
该矩阵的字符索引可与upc
和state
中的值匹配。那么然后使用2列字符索引将这些放入空的“槽”中:
dat$price[is.na(dat$price)] <-
meanmtx[ cbind( as.character(dat[ is.na(dat$price), 'upc']),
as.character(dat[ is.na(dat$price),'state']) ) ]
> dat
upc date state price
1 1153801013 200601 1 26.0
2 1153801013 200602 1 28.0
3 1153801013 200603 1 27.0
4 1153801013 200604 1 27.0
5 1153801013 200601 2 23.0
6 1153801013 200602 2 24.0
7 2105900750 200601 1 85.0
8 2105900750 200602 1 84.0
9 2105900750 200603 2 79.5
10 2105900750 200601 2 81.0
11 2105900750 200602 2 78.0
12 2173300001 200603 1 24.0
13 2173300001 200604 1 19.0
14 2173300001 200605 1 98.0
15 2173300001 200606 1 47.0
答案 2 :(得分:4)
以下是使用na.aggregate
(来自zoo
)和data.table
的另一个紧凑选项。默认情况下,na.aggregate
会将NA
值替换为感兴趣列的mean
。它还有一个FUN
参数,以防我们想要median
,min
或max
或我们想要的任何内容替换NA。按操作分组可以通过dplyr / data.table / base R方法完成。使用data.table
,我们将'data.frame'转换为'data.table'(setDT(data)
),按'upc','state'分组,我们分配(:=
)''价格'作为'价格'的na.aggregate
。
library(data.table)
library(zoo)
setDT(data)[, price:= na.aggregate(price) , .(upc, state)]