我想在满足某些条件后每年获取一列中唯一值的总和。
这是我来自dput的数据:
structure(list(key = structure(c(1L, 1L, 4L, 2L, 3L, 4L, 2L,
3L, 5L, 5L, 8L, 6L, 7L, 8L, 6L, 7L), .Label = c("1992_10_18_0",
"1992_10_18_12", "1992_10_18_18", "1992_10_18_6", "1993_10_18_0",
"1993_10_18_12", "1993_10_18_18", "1993_10_18_6"), class = "factor"),
RR = c(43.25, 43.25, 43.25, 43.25, 43.25, 43.25, 43.25, 43.25,
43.25, 43.25, 43.25, 43.25, 43.25, 43.25, 43.25, 43.25),
dist = c(1000.23361607017, 694.022935174544, 748.618896699399,
812.290633745208, 869.896619169459, 1136.88564181537,
1058.59136791648,
975.756885299645, 1000.23361607017, 694.022935174544,
748.618896699399,
812.290633745208, 869.896619169459, 1136.88564181537,
1058.59136791648,
975.756885299645), Year = c(1992L, 1992L, 1992L, 1992L, 1992L,
1992L, 1992L, 1992L, 1993L, 1993L, 1993L, 1993L, 1993L, 1993L,
1993L, 1993L)), class = "data.frame", row.names = c(NA, -16L
))
我想要的东西:
数据中有四列:键,RR,距离和年份。
我想根据每年的唯一“键”值获取RR的总和,以使“ dist”小于或等于1100。
我到目前为止所拥有的:
我正在处理多个文件,因此脚本如下:
dat<-read.csv("test_dat.csv",header=T,stringsAsFactors=FALSE)
dat2<-dat[which(dat$dist <= 1100),]
dat3<-as.data.frame(cbind(dat2$RR,dat2$Year))
colnames(dat3)<-c("RR","Year")
agg<-aggregate(.~Year,dat3,sum,na.rm=T)
write.csv(agg,file="test.csv",row.names=T)
关于如何在R中执行此操作的任何想法? 我将不胜感激。
答案 0 :(得分:2)
您可以通过使用aggregate
函数和unique
函数来完成此操作:
agg <- aggregate(key ~ Year, data=subset(dat, dist <= 1100), FUN=function(x) length(unique(x)))
或者,在全文中:
dat<-read.csv("test_dat.csv",header=T,stringsAsFactors=FALSE)
agg <- aggregate(key ~ Year, data=subset(dat, dist <= 1100), FUN=function(x) length(unique(x)))
write.csv(agg,file="test.csv",row.names=T)
在此示例中,生成的输出为:
Year key
1 1992 4
2 1993 4
答案 1 :(得分:1)
使用dplyr
的一种方法可能是filter
的{{1}}值小于1100,并且仅保留dist
和key
{{1} }和sum
列。
RR
要计算不同的值,我们可以使用dist
library(dplyr)
df %>%
group_by(Year) %>%
filter(dist <= 1100 & !duplicated(key)) %>%
summarise(RR = sum(RR), dist = sum(dist))