我下面有具有半小时时间序列数据的数据集。
Date <- c("2018-01-01 08:00:00", "2018-01-01 08:30:00",
"2018-01-01 08:59:59","2018-01-01 09:29:59")
Volume <- c(195, 188, 345, 123)
Dataset <- data.frame(Date, Volume)
我想知道如何读取此数据帧以进行时间序列分析。我应该如何定义开始和结束日期以及频率?
答案 0 :(得分:2)
我不确定“半小时数据”到底是什么意思,因为它不是。如果您想将其舍入为半小时,我们可以根据您的情况调整this solution。
Dataset$Date <- as.POSIXlt(round(as.double(Dataset$Date)/(30*60))*(30*60),
origin=(as.POSIXlt('1970-01-01')))
如果您不想四舍五入就做
Dataset$Date <- as.POSIXct(Dataset$Date)
基本上,您的Date
列应设置为日期格式,例如"POSIXlt"
,例如:
> class(Dataset$Date)
[1] "POSIXlt" "POSIXt"
然后我们可以使用xts
将数据转换为时间序列。
library(xts)
Dataset.xts <- xts(Dataset$Volume, order.by=Dataset$Date)
结果(四舍五入):
> Dataset.xts
[,1]
2018-01-01 08:00:00 195
2018-01-01 08:30:00 188
2018-01-01 09:00:00 345
2018-01-01 09:30:00 123
答案 1 :(得分:1)
您可以使用dplyr
中的lubridate
和tidyverse
将数据转换为POSIX日期格式,然后使用ts
转换为时间序列。您可以在其中定义参数。
Dataset2 <- Dataset %>%
mutate(Date = as.character(Date),
Date = ymd_hms(Date)) %>%
ts(start = c(2018, 1), end = c(2018, 2), frequency = 1)
尝试?ts
以获得有关参数的更多详细信息。我个人认为zoo
和xts
为时间序列分析提供了更好的框架。