Question

我有一个跨越多年的几种物种的计数数据。我只想看看冬季每年每种物种的丰度动态。问题是，冬季跨度为两年，即明年11月，12月和明年1月。现在，我想将连续两年中每种冬季的丰富度结合起来，并进行一些分析。例如，我想在第一轮中将2005年11月至12月和2006年1月的子集进行子集，然后对此做一些分析，然后在第二轮中就想要对2006年11月至12月和2007年1月的子集进行子集，然后重复相同的分析，依此类推....如何在R中做到这一点？

以下是数据示例

date    species year    month   day abundance   temp
9/3/2005    A   2005    9   3   3   19
9/15/2005   B   2005    9   15  30  16
10/4/2005   A   2005    10  4   24  12
11/6/2005   A   2005    11  6   32  14
12/8/2005   A   2005    12  8   15  13
1/3/2005    A   2006    1   3   64  19
1/4/2006    B   2006    1   4   2   13
2/10/2006   A   2006    2   10  56  12
2/8/2006    A   2006    1   3   34  19
3/9/2006    A   2006    1   3   64  19

Answer 1

我将您的日期列转换为日期类（可能使用lubridate），并删除年月日列，因为它们是多余的。

然后使用季节性年份（定义为年份，除非月份为1月，则为上一年）创建一个新列。 case_when构成了另一列，用于定义行的季节。

library(dplyr)
library(lubridate)

# converts to date format
df$date <- mdy(df$date)

# add in columns
df <- mutate(df,
       season_year = ifelse(month(date) == 1, year(date) - 1, year(date)),
       season = case_when(
        month(date) %in% c(2, 3, 4) ~ "Spring",
        month(date) %in% c(5, 6, 7) ~ "Summer",
        month(date) %in% c(8, 9, 10) ~ "Autumn",
        month(date) %in% c(11, 12, 1) ~ "Winter",
        T ~ NA_character_
       ))

#          date species abundance temp season_year season
# 1  2005-09-03       A         3   19        2005 Autumn
# 2  2005-09-15       B        30   16        2005 Autumn
# 3  2005-10-04       A        24   12        2005 Autumn
# 4  2005-11-06       A        32   14        2005 Winter
# 5  2005-12-08       A        15   13        2005 Winter
# 6  2005-01-03       A        64   19        2004 Winter
# 7  2006-01-04       B         2   13        2005 Winter
# 8  2006-02-10       A        56   12        2006 Spring
# 9  2006-02-08       A        34   19        2006 Spring
# 10 2006-03-09       A        64   19        2006 Spring

然后，您可以group_by()和/或filter()进行进一步分析：

df %>%
  group_by(season_year) %>%
  filter(season == "Winter") %>%
  summarise(count = sum(abundance))

# # A tibble: 2 x 2
#   season_year count
#         <dbl> <int>
# 1        2004    64
# 2        2005    49

Answer 2

data.table解决方案：

首先创建一个包含起始日期和季节年份的查找表，然后使用foverlaps

执行重叠联接

library( data.table )

样本数据

dt <- fread("date    species year    month   day abundance   temp
9/3/2005    A   2005    9   3   3   19
9/15/2005   B   2005    9   15  30  16
10/4/2005   A   2005    10  4   24  12
11/6/2005   A   2005    11  6   32  14
12/8/2005   A   2005    12  8   15  13
1/3/2005    A   2006    1   3   64  19
1/4/2006    B   2006    1   4   2   13
2/10/2006   A   2006    2   10  56  12
2/8/2006    A   2006    1   3   34  19
3/9/2006    A   2006    1   3   64  19", header = TRUE)

创建查找表

在这里，您可以定义名称，季节的开始和结束。根据自己的需要进行调整。由于您要单独分析季节，因此建议您保留唯一的季节名称（此处：基于季节的起始年份）。

dt.season <- data.table( from = seq( as.Date("1999-02-01"), length.out = 100, by = "3 month"),
                         to = seq( as.Date("1999-05-01"), length.out = 100, by = "3 month") - 1 )
dt.season[, season := paste0( c( "spring", "summer", "autumn", "winter" ), "-", year( from ) )]
setkey( dt.season, from, to )

head(dt.season,6)

#          from         to      season
# 1: 1999-02-01 1999-04-30 spring-1999
# 2: 1999-05-01 1999-07-31 summer-1999
# 3: 1999-08-01 1999-10-31 autumn-1999
# 4: 1999-11-01 2000-01-31 winter-1999
# 5: 2000-02-01 2000-04-30 spring-2000
# 6: 2000-05-01 2000-07-31 summer-2000

并执行加入

#set dt$date as dates
dt[, date := as.Date(date, format = "%m/%d/%Y")]

#create dummy variables to join on
dt[, `:=`( from = date, to = date)]

#create an overlap join, and clean the dummies used for the join
foverlaps( dt, dt.season)[, `:=`(from = NULL, to = NULL, i.from = NULL, i.to = NULL)][]

#         season       date species year month day abundance temp
#  1: autumn-2005 2005-09-03       A 2005     9   3         3   19
#  2: autumn-2005 2005-09-15       B 2005     9  15        30   16
#  3: autumn-2005 2005-10-04       A 2005    10   4        24   12
#  4: winter-2005 2005-11-06       A 2005    11   6        32   14
#  5: winter-2005 2005-12-08       A 2005    12   8        15   13
#  6: winter-2004 2005-01-03       A 2006     1   3        64   19
#  7: winter-2005 2006-01-04       B 2006     1   4         2   13
#  8: spring-2006 2006-02-10       A 2006     2  10        56   12
#  9: spring-2006 2006-02-08       A 2006     1   3        34   19
# 10: spring-2006 2006-03-09       A 2006     1   3        64   19

您现在可以通过season

轻松进行分组/汇总/分析

Answer 3

我认为最简单的方法是考虑2006年冬季包括2006年11月，2006年12月和2007年1月，您可以添加一列winterid <- ifelse(data$month %in% c(11,12), data$year, ifelse(data$month == 1, data$year-1, "notwinter"))。现在，您可以在连续的冬季子集中。根据您的符号进行适应。

如何结合连续两年的冬季

3 个答案: