我已经阅读了大量的帮助和在线预订,包括http://a-little-book-of-r-for-time-series.readthedocs.io/en/latest/src/timeseries.html,但似乎找不到我需要的类似示例。我在数据集中有时间条目不常规。我正在跟踪推文。这是我的示例数据帧: 推文数据框:(推文数始终为1 - 它是虚拟的)
datetime tweetcount retweets hashtags_used atmention likes
02-01-2016 02:34 1 3 1 2 1
04-01-2016 13:45 1 1 1 1 0
04-01-2016 17:55 1 5 2 4 2
Follow_dat
(这是一个单独的数据框,跟随计数总是1 - 虚拟)
datetime followcount
02-01-2016 02:34 1
04-01-2016 13:45 1
04-01-2016 17:55 1
我尝试了几件事:例如,我使用剪切命令将数据剪切成小时,但这不准确,因为在该小时内,追随者可能仍然在推文之前 - 我不是确定这是否有意义。
我想要做的是找出追随者与时间相关的推文变量/因素。通过按小时缩短来创建一个更精确的表格我降低了准确性,但我似乎无法找到另一种方法来进行回归并使模型与此相符,或者找出哪些因素很重要。
df$week <- as.Date(cut(df$datetime, breaks = "week", start.on.monday = FALSE))
我用来剪切数据的代码。然后我聚合到另一个表中。从那里我可以运行ARIMA,但...... a)这意味着跟随和推文可以在同一周内关联,即使在推文之前发生了跟随。我需要确保跟进之后。 b)如果下周发生了跟进,那么它就没有关联。
答案 0 :(得分:0)
将日期时间重新编码为年,月,工作日,分钟或秒等几个因素并提供适当的汇总是一种合理的方法,尤其是在您尝试确定季节性或趋势时。
您能否详细解释一下您想要预测/完成的内容?