来自data.frame的示例:
x = data.frame(c(1,1,2,2,3,3), c(1,2,1,2,1,2), c(1,1,1,2,2,2), c(12,14,22,24,34,28))
colnames(x)=c("Store","Dept","Year","Sales")
我想获得:
Sales = array(NA, dim=c(2,2,2))
Sales是一个包含3个维度的数组:( Store,Dept,Year)填充了x中的所有数据。
我正在寻找可扩展到更多维度的解决方案,以及初始数据框(x)中的数千条记录。
编辑:我认为下面的解决方案正在运行,但似乎它们并不完全是我想要的。我认为问题是索引在这个过程中丢失了。
这是一个小数据集:
structure(list(Store = c(35L, 35L, 35L, 35L, 35L), Dept = c(71L,
71L, 71L, 71L, 71L), Year = c(1, 2, 3, 4, 5), Sales = c(10908.04,
12279.99, 11061.82, 12288.1, 9950.55)), .Names = c("Store", "Dept",
"Year", "Sales"), row.names = c(NA, -5L), class = "data.frame")
> x
Store Dept Year Sales
1 35 71 1 10908.04
2 35 71 2 12279.99
3 35 71 3 11061.82
4 35 71 4 12288.10
5 35 71 5 9950.55
现在我希望能够致电销售[35,71,2] 以获得10908.04。
以下两个解决方案都通过调用Sales [1,1,1]来获取数据,此时我无法使用该数据。
答案 0 :(得分:1)
类似的东西:
tapply(X = x[["Sales"]], INDEX = x[setdiff(names(x), "Sales")], FUN = identity)
可以工作,但使用tapply
和身份函数有点奇怪。
答案 1 :(得分:1)
您是否正在寻找xtabs
?
xtabs(Sales ~ Store + Dept + Year, x)
# , , Year = 1
#
# Dept
# Store 1 2
# 1 12 14
# 2 22 0
# 3 0 0
#
# , , Year = 2
#
# Dept
# Store 1 2
# 1 0 0
# 2 0 24
# 3 34 28
答案 2 :(得分:0)
您必须使用适当的维度构建数组:
Sales <- array(NA, c(max(x$Store), max(x$Dept), max(x$Year)))
然后填写数据:
for (i in 1:nrow(x))
Sales[x[i,"Store"], x[i,"Dept"], x[i,"Year"]] <- x[i, "Sales"]
Sales[35,71,1]