我有一个树环宽度为66棵树的矩阵。行代表测量的年份,列代表不同的树。
现在,我想逐棵计算一年到另一棵树的生长差异。我设法使用dplyr
中的“滞后”函数分别为每一列做到了这一点。对于66列,要写很多代码,因此我正在寻找一种方法,一次针对所有列,但逐列进行。
我的“ treegrowth” data.frame看起来像这样:
year tree1 tree2 tree3 ...
1900 0.72 0.34 1.34
1901 0.56 0.88 0.98
1902 1.23 0.56 1.67
...
对于每棵树,我想将一年的值除以前一年的值,然后将旧值与结果相子集。
我可以像这样对每列进行此操作:
treegrowth$tree1 <- treegrowth$tree1 / lag(treegrowth$tree1)
但是我如何一步一步地对所有树木(列)进行管理?
如果我只是忽略了'$tree1'
,那么将会发生一些奇怪的事情,但并不是我想要的。
> dput(head(treegrowth))
structure(list(WA12M = c(NA_real_, NA_real_, NA_real_, NA_real_,
NA_real_, NA_real_), WA81M = c(NA_real_, NA_real_, NA_real_,
NA_real_, NA_real_, NA_real_), WA101M = c(NA_real_, NA_real_,
NA_real_, NA_real_, NA_real_, NA_real_), HA263M = c(NA_real_,
NA_real_, NA_real_, NA_real_, NA_real_, NA_real_), HA358M = c(NA_real_,
NA_real_, NA_real_, NA_real_, NA_real_, NA_real_), HA386M = c(NA_real_,
NA_real_, NA_real_, NA_real_, NA_real_, NA_real_), HA387M = c(NA_real_,
NA_real_, NA_real_, NA_real_, NA_real_, NA_real_), HA388M = c(0.73,
0.73, 0.84, 0.43, 0.67, 0.72), HA390M = c(NA_real_, NA_real_,
NA_real_, NA_real_, NA_real_, NA_real_), HA420M = c(NA_real_,
NA_real_, NA_real_, NA_real_, NA_real_, NA_real_), MI49M = c(NA_real_,
NA_real_, NA_real_, NA_real_, NA_real_, NA_real_), MI51M = c(NA_real_,
NA_real_, NA_real_, NA_real_, NA_real_, NA_real_), MI62M = c(NA_real_,
NA_real_, NA_real_, NA_real_, NA_real_, NA_real_), MI309M = c(NA_real_,
NA_real_, NA_real_, NA_real_, NA_real_, NA_real_), NO4M = c(NA_real_,
NA_real_, NA_real_, NA_real_, NA_real_, NA_real_), NO8M = c(NA_real_,
NA_real_, NA_real_, NA_real_, NA_real_, NA_real_), NO23M = c(NA_real_,
NA_real_, NA_real_, NA_real_, NA_real_, NA_real_), NO42M = c(NA_real_,
NA_real_, NA_real_, NA_real_, NA_real_, NA_real_), NO47M = c(NA_real_,
NA_real_, NA_real_, NA_real_, NA_real_, NA_real_), NO50M = c(NA_real_,
NA_real_, NA_real_, NA_real_, NA_real_, NA_real_), NO73M = c(NA_real_,
NA_real_, NA_real_, NA_real_, NA_real_, NA_real_), WA3M = c(NA_real_,
NA_real_, NA_real_, NA_real_, NA_real_, NA_real_), WA18M = c(NA_real_,
NA_real_, NA_real_, NA_real_, NA_real_, NA_real_), WA22M = c(NA_real_,
NA_real_, NA_real_, NA_real_, NA_real_, NA_real_), WA25M = c(NA_real_,
NA_real_, NA_real_, NA_real_, NA_real_, NA_real_), WA26M = c(NA_real_,
NA_real_, NA_real_, NA_real_, NA_real_, NA_real_), WA27M = c(NA_real_,
NA_real_, NA_real_, NA_real_, NA_real_, NA_real_), WA28M = c(NA_real_,
NA_real_, NA_real_, NA_real_, NA_real_, NA_real_), WA38M = c(NA_real_,
NA_real_, NA_real_, NA_real_, NA_real_, NA_real_), WA40M = c(NA_real_,
NA_real_, NA_real_, NA_real_, NA_real_, NA_real_), WA48M = c(NA_real_,
NA_real_, NA_real_, NA_real_, NA_real_, NA_real_), WA64M = c(NA_real_,
NA_real_, NA_real_, NA_real_, NA_real_, NA_real_), WA80M = c(NA_real_,
NA_real_, NA_real_, NA_real_, NA_real_, NA_real_), WA84M = c(NA_real_,
NA_real_, NA_real_, NA_real_, NA_real_, NA_real_), WA88M = c(NA_real_,
NA_real_, NA_real_, NA_real_, NA_real_, NA_real_), WA90M = c(NA_real_,
NA_real_, NA_real_, NA_real_, NA_real_, NA_real_), WA93M = c(NA_real_,
NA_real_, NA_real_, NA_real_, NA_real_, NA_real_), WA95M = c(NA_real_,
NA_real_, NA_real_, NA_real_, NA_real_, NA_real_), WA103M = c(NA_real_,
NA_real_, NA_real_, NA_real_, NA_real_, NA_real_), WA104M = c(NA_real_,
NA_real_, NA_real_, NA_real_, NA_real_, NA_real_), WA111M = c(NA_real_,
NA_real_, NA_real_, NA_real_, NA_real_, NA_real_), WA141M = c(NA_real_,
NA_real_, NA_real_, NA_real_, NA_real_, NA_real_), WA142M = c(NA_real_,
NA_real_, NA_real_, NA_real_, NA_real_, NA_real_), WA154M = c(NA_real_,
NA_real_, NA_real_, NA_real_, NA_real_, NA_real_), WA163M = c(NA_real_,
NA_real_, NA_real_, NA_real_, NA_real_, NA_real_), WA164M = c(NA_real_,
NA_real_, NA_real_, NA_real_, NA_real_, NA_real_), WA177M = c(NA_real_,
NA_real_, NA_real_, NA_real_, NA_real_, NA_real_), WA194M = c(NA_real_,
NA_real_, NA_real_, NA_real_, NA_real_, NA_real_), WA195M = c(NA_real_,
NA_real_, NA_real_, NA_real_, NA_real_, NA_real_), WA196M = c(NA_real_,
NA_real_, NA_real_, NA_real_, NA_real_, NA_real_), WA197M = c(NA_real_,
NA_real_, NA_real_, NA_real_, NA_real_, NA_real_), WA198M = c(NA_real_,
NA_real_, NA_real_, NA_real_, NA_real_, NA_real_), WA200M = c(NA_real_,
NA_real_, NA_real_, NA_real_, NA_real_, NA_real_), WA202M = c(NA_real_,
NA_real_, NA_real_, NA_real_, NA_real_, NA_real_), WA205M = c(NA_real_,
NA_real_, NA_real_, NA_real_, NA_real_, NA_real_), WA206M = c(NA_real_,
NA_real_, NA_real_, NA_real_, NA_real_, NA_real_), WA207M = c(NA_real_,
NA_real_, NA_real_, NA_real_, NA_real_, NA_real_), WA225M = c(NA_real_,
NA_real_, NA_real_, NA_real_, NA_real_, NA_real_), WA252M = c(NA_real_,
NA_real_, NA_real_, NA_real_, NA_real_, NA_real_), WA291M = c(NA_real_,
NA_real_, NA_real_, NA_real_, NA_real_, NA_real_), WA294M = c(NA_real_,
NA_real_, NA_real_, NA_real_, NA_real_, NA_real_), WA297M = c(NA_real_,
NA_real_, NA_real_, NA_real_, NA_real_, NA_real_), WA299M = c(NA_real_,
NA_real_, NA_real_, NA_real_, NA_real_, NA_real_), WA376M = c(NA_real_,
NA_real_, NA_real_, NA_real_, NA_real_, NA_real_), WA379M = c(NA_real_,
NA_real_, NA_real_, NA_real_, NA_real_, NA_real_), WA395M = c(NA_real_,
NA_real_, NA_real_, NA_real_, NA_real_, NA_real_), EI33M = c(NA_real_,
NA_real_, NA_real_, NA_real_, NA_real_, NA_real_), EI38M = c(NA_real_,
NA_real_, NA_real_, NA_real_, NA_real_, NA_real_), HA161M = c(NA_real_,
NA_real_, NA_real_, NA_real_, NA_real_, NA_real_)), row.names`c("1803",
"1804", "1805", "1806", "1807", "1808"), class = c("rwl", "data.frame"
))
答案 0 :(得分:4)
使用基数R,我们可以使用lapply
treegrowth[paste0(names(df[-1]), "_growth")] <- lapply(treegrowth[-1],
function(x) c(NA, x[-1]/x[-length(x)]))
# year tree1 tree2 tree3 tree1_growth tree2_growth tree3_growth
#1 1900 0.72 0.34 1.34 NA NA NA
#2 1901 0.56 0.88 0.98 0.7777778 2.5882353 0.7313433
#3 1902 1.23 0.56 1.67 2.1964286 0.6363636 1.7040816
或者,如果您想使用dplyr
和lag
,我们可以使用mutate_at
library(dplyr)
treegrowth %>% mutate_at(-1, list(growth = ~./lag(.)))
数据
treegrowth <- structure(list(year = 1900:1902, tree1 = c(0.72, 0.56, 1.23),
tree2 = c(0.34, 0.88, 0.56), tree3 = c(1.34, 0.98, 1.67)),
class = "data.frame", row.names = c(NA, -3L))
答案 1 :(得分:2)
zoo程序包中有diff.zoo
,它与arithmetic=FALSE
自变量完全一样。最后,使用“注释”中可重复提供的treegrowth
,我们使用以下代码将其读入Zoo对象,然后应用diff
。
(请注意,fortify.zoo
会将动物园对象转换为数据框。)
library(zoo)
z <- read.zoo(as.data.frame(treegrowth))
zd <- diff(z, arithmetic = FALSE)
给予这个动物园对象:
zd
## tree1 tree2 tree3
## 1901 0.7777778 2.5882353 0.7313433
## 1902 2.1964286 0.6363636 1.7040816
library(ggplot2)
autoplot(zd, facet = NULL) +
geom_point() +
scale_x_continuous(breaks = time(zd)) +
xlab("year")
Lines <- "year tree1 tree2 tree3
1900 0.72 0.34 1.34
1901 0.56 0.88 0.98
1902 1.23 0.56 1.67"
treegrowth <- as.matrix(read.table(text = Lines, header = TRUE))
答案 2 :(得分:0)
您可以尝试使用melt函数将数据框的格式更改为长格式(来自reshape2包)。 一旦采用长格式,您就可以轻松地通过循环执行计算。
如果树名成为变量,则可以写类似
for (tree in levels(treegrowth_m$variable)){
treegrowth_m$tree <- treegrowth_m$tree / lag(treegrowth_m$tree)
}
其中treegrowth_m是融化的df
答案 3 :(得分:0)
如果将数据重塑为更长的格式,这将变得更加容易:
df %>%
gather("tree", "width", -year) %>%
group_by(tree) %>%
mutate(growth = width / lag(width))
答案 4 :(得分:0)
您可以尝试以下代码:
treeGrowth <- data.frame("year"=c(1900, 1901, 1902),
"tree1"=c(0.72, 0.56, 1.23),
"tree2"=c(0.34, 0.88, 0.56),
"tree3"=c(1.34, 0.98, 1.67))
for(column in colnames(treeGrowth)[-1]){
treeGrowth[, paste0(column, "_growth")] <- c(NA, treeGrowth[-1, column] /
treeGrowth[-nrow(data),
column])
}
print(treeGrowth)
# year tree1 tree2 tree3 tree1_growth tree2_growth tree3_growth
#1 1900 0.72 0.34 1.34 1.0000000 1.0000000 1.0000000
#2 1901 0.56 0.88 0.98 0.7777778 2.5882353 0.7313433
#3 1902 1.23 0.56 1.67 2.1964286 0.6363636 1.7040816