我有一个如下所示的数据集:
groups <- c(1:20)
values1 <- c(1,3,2,4,2,5,1,6,2,7,3,5,2,6,3,5,1,5,3,4)
values2 <- c(3,2,4,1,5,2,4,1,3,2,6,1,4,2,5,3,7,1,4,2)
sample.data <- data.frame(groups,values1,values2)
head(sample.data)
groups values1 values2
1 1 1 3
2 2 3 2
3 3 2 4
4 4 4 1
5 5 2 5
6 6 5 2
描述:一个数据帧,包含20组20个不同组的值(values1和values2)。数字遵循以下模式:
(1)数字可选择高点和低点
(2)如果values1
列中的数字高于其相邻的2个数字,则values2
列中的相应数字将低于其相邻的2个数字(如示例中所示)< / p>
我想从这些数字中计算出的值称为“delta值”(dV) - 计算为高值数字与其相邻的2个低值数字的平均值之间的差值。例如,对于values1
列(1,3,2)的第一个3数集,第一个dV将是3 - ((2 + 1)/ 2)= 1.5;然后将该组的最后一个数作为下一组的第一个数,进行相同的计算,因此第二个dV为4 - ((2 + 2)/ 2)= 2;等等。然后在名为values1
的新列中记录dV1
列的所有这些dV值。对values2
列执行相同操作,并在新dV2
列中记录所有dV值。请注意,在values2
列中,第一个数字高于第二个数字,因此忽略它并使用下一个3数字集(2,4,1)开始计算并重复上述计算。 / p>
那么如何在R中执行此计算?
提前谢谢!
P / S:对不起,这是一个很长的问题,但我认为它有计算所需的全部信息。
答案 0 :(得分:2)
由于您希望使用dV
值进行绘图,因此最简单的做法是两次,每列一次
library(dplyr)
sample.data1 <- sample.data %>%
mutate(alt = row_number()%%2,
mean_adj_1 = (lag(values1) + lead(values1))/2,
dV1 = (values1 - mean_adj_1) * (1-alt)) %>%
filter(alt == 0 & !is.na(dV1)) %>%
select(-c(alt:mean_adj_1))
sample.data.2 <- sample.data %>%
mutate(alt = row_number()%%2,
mean_adj_2 = (lag(values2) + lead(values2))/2,
dV2 = (values2 - mean_adj_2) * alt) %>%
filter(alt == 1 & !is.na(dV2)) %>%
select(-c(alt:mean_adj_2))
说明:这可以用更少的步骤完成,但这样你就可以看到发生了什么。 mean_adj
列可以获得前后行的平均值,而alt
列可以让您将零添加到您不希望dV
计算的行中。 dV
列只是value - mean_adj
。
结果:
> sample.data.1
groups values1 values2 dV1
1 2 3 2 1.5
2 4 4 1 2.0
3 6 5 2 3.5
4 8 6 1 4.5
5 10 7 2 4.5
6 12 5 1 2.5
7 14 6 2 3.5
8 16 5 3 3.0
9 18 5 1 3.0
> sample.data.2
groups values1 values2 dV2
1 3 2 4 2.5
2 5 2 5 3.5
3 7 1 4 2.5
4 9 2 3 1.5
5 11 3 6 4.5
6 13 2 4 2.5
7 15 3 5 2.5
8 17 1 7 5.0
9 19 3 4 2.5