Question

我想使用数据框中的参考列创建一个4小时的间隔。我有一个像这样的数据框：

species<-"ABC"
ind<-rep(1:4,each=24)
hour<-rep(seq(0,23,by=1),4)
depth<-runif(length(ind),1,50)

df<-data.frame(cbind(species,ind,hour,depth))
df$depth<-as.numeric(df$depth)

我想要的是创建一个新列（不更改原始数据框的信息或维度），可以查看我的小时列（参考列）并根据该值给我一个4小时的时间间隔。例如，如果小时列中的值介于0和3之间，则新列中的值将为0;如果值在4到7之间，则新列中的值将为4，依此类推......在excel中，我曾经使用了floor / ceiling函数，但在R中它们并不完全相同。此外，如果有人使用原始日期/时间数据也可以更容易地提出建议。在我的原始脚本中，我使用函数as.POSIXct来获取日期/时间数据，并从那里获取我的小时列。

感谢您的帮助，

Answer 1

如何获取小时数列，将其转换为整数，并使用整数除法来发言？像这样的东西

# convert hour to integer (hour is currently a col of factors)
i <- as.numeric(levels(df$hour))[df$hour]

# make new column
df$interval <- (i %/% 4) * 4

Answer 2

扩展我的评论，因为我认为你最终会在某个时候寻找实际日期......

一些每小时样本数据：

set.seed(1)
mydata <- data.frame(species = "ABC",
                     ind = rep(1:4, each=24),
                     depth = runif(96, 1, 50),
                     datetime = seq(ISOdate(2000, 1, 1, 0, 0, 0), 
                                    by = "1 hour", length.out = 96))
list(head(mydata), tail(mydata))
# [[1]]
#   species ind    depth            datetime
# 1     ABC   1 14.00992 2000-01-01 00:00:00
# 2     ABC   1 19.23407 2000-01-01 01:00:00
# 3     ABC   1 29.06981 2000-01-01 02:00:00
# 4     ABC   1 45.50218 2000-01-01 03:00:00
# 5     ABC   1 10.88241 2000-01-01 04:00:00
# 6     ABC   1 45.02109 2000-01-01 05:00:00
# 
# [[2]]
#    species ind     depth            datetime
# 91     ABC   4 12.741841 2000-01-04 18:00:00
# 92     ABC   4  3.887784 2000-01-04 19:00:00
# 93     ABC   4 32.472125 2000-01-04 20:00:00
# 94     ABC   4 43.937191 2000-01-04 21:00:00
# 95     ABC   4 39.166819 2000-01-04 22:00:00
# 96     ABC   4 40.068132 2000-01-04 23:00:00

使用cut和format转换该数据：

mydata <- within(mydata, {
    hourclass <- cut(datetime, "4 hours")             # Find the intervals
    hourfloor <- format(as.POSIXlt(hourclass), "%H")  # Display just the "hour"
})
list(head(mydata), tail(mydata))
# [[1]]
#   species ind    depth            datetime           hourclass hourfloor
# 1     ABC   1 14.00992 2000-01-01 00:00:00 2000-01-01 00:00:00        00
# 2     ABC   1 19.23407 2000-01-01 01:00:00 2000-01-01 00:00:00        00
# 3     ABC   1 29.06981 2000-01-01 02:00:00 2000-01-01 00:00:00        00
# 4     ABC   1 45.50218 2000-01-01 03:00:00 2000-01-01 00:00:00        00
# 5     ABC   1 10.88241 2000-01-01 04:00:00 2000-01-01 04:00:00        04
# 6     ABC   1 45.02109 2000-01-01 05:00:00 2000-01-01 04:00:00        04
# 
# [[2]]
#    species ind     depth            datetime           hourclass hourfloor
# 91     ABC   4 12.741841 2000-01-04 18:00:00 2000-01-04 16:00:00        16
# 92     ABC   4  3.887784 2000-01-04 19:00:00 2000-01-04 16:00:00        16
# 93     ABC   4 32.472125 2000-01-04 20:00:00 2000-01-04 20:00:00        20
# 94     ABC   4 43.937191 2000-01-04 21:00:00 2000-01-04 20:00:00        20
# 95     ABC   4 39.166819 2000-01-04 22:00:00 2000-01-04 20:00:00        20
# 96     ABC   4 40.068132 2000-01-04 23:00:00 2000-01-04 20:00:00        20

请注意，您的新“小时”变量是一个因素，新的“hourfloor”变量是字符，但您可以轻松更改这些变量，即使在within阶段也是如此。

str(mydata)
# 'data.frame':    96 obs. of  6 variables:
#  $ species  : Factor w/ 1 level "ABC": 1 1 1 1 1 1 1 1 1 1 ...
#  $ ind      : int  1 1 1 1 1 1 1 1 1 1 ...
#  $ depth    : num  14 19.2 29.1 45.5 10.9 ...
#  $ datetime : POSIXct, format: "2000-01-01 00:00:00" "2000-01-01 01:00:00" ...
#  $ hourclass: Factor w/ 24 levels "2000-01-01 00:00:00",..: 1 1 1 1 2 2 2 2 3 3 ...
#  $ hourfloor: chr  "00" "00" "00" "00" ...

Answer 3

提示编号1，不要使用cbind创建具有不同类型列的data.frame，所有内容都会被强制转换为相同类型（在这种情况下为因子）

findInterval或cut似乎合适。

df <- data.frame(species,ind,hour,depth)
# copy
df2 <- df
df2$fourhour <- c(0,4,8,12,16,20)[findInterval(df$hour, c(0,4,8,12,16,20))]

Answer 4

虽然可能有一种更简单的方法，但这是一次尝试。

首先使您的data.frame不使用cbind，因此hour不是factor而是numeric

df <- data.frame(species,ind,hour,depth)

然后：

df$interval <- factor(findInterval(df$hour,seq(0,23,4)),labels=seq(0,23,4))

结果：

> head(df)
  species ind hour    depth interval
1     ABC   1    0 23.11215        0
2     ABC   1    1 10.63896        0
3     ABC   1    2 18.67615        0
4     ABC   1    3 28.01860        0
5     ABC   1    4 38.25594        4
6     ABC   1    5 30.51363        4

您还可以使标签更好一点：

cutseq <- seq(0,23,4)
df$interval <- factor(
                       findInterval(df$hour,cutseq),
                       labels=paste(cutseq,cutseq+3,sep="-")
                     )

结果：

> head(df)
  species ind hour    depth interval
1     ABC   1    0 23.11215      0-3
2     ABC   1    1 10.63896      0-3
3     ABC   1    2 18.67615      0-3
4     ABC   1    3 28.01860      0-3
5     ABC   1    4 38.25594      4-7
6     ABC   1    5 30.51363      4-7

使用R中的参考列创建4小时的时间间隔

4 个答案: