时间序列多元回归 - 不规则时间进入/多变量

时间:2016-05-03 03:10:01

标签: r

我已经阅读了大量的帮助和在线预订,包括http://a-little-book-of-r-for-time-series.readthedocs.io/en/latest/src/timeseries.html,但似乎找不到我需要的类似示例。我在数据集中有时间条目不常规。我正在跟踪推文。这是我的示例数据帧: 推文数据框:(推文数始终为1 - 它是虚拟的)

datetime            tweetcount retweets  hashtags_used atmention likes
02-01-2016 02:34      1          3          1              2       1
04-01-2016 13:45      1          1          1              1       0
04-01-2016 17:55      1          5          2              4       2

Follow_dat(这是一个单独的数据框,跟随计数总是1 - 虚拟)

datetime            followcount 
02-01-2016 02:34      1         
04-01-2016 13:45      1         
04-01-2016 17:55      1         

我尝试了几件事:例如,我使用剪切命令将数据剪切成小时,但这不准确,因为在该小时内,追随者可能仍然在推文之前 - 我不是确定这是否有意义。

我想要做的是找出追随者与时间相关的推文变量/因素。通过按小时缩短来创建一个更精确的表格我降低了准确性,但我似乎无法找到另一种方法来进行回归并使模型与此相符,或者找出哪些因素很重要。

df$week <- as.Date(cut(df$datetime, breaks = "week", start.on.monday = FALSE)) 

我用来剪切数据的代码。然后我聚合到另一个表中。从那里我可以运行ARIMA,但...... a)这意味着跟随和推文可以在同一周内关联,即使在推文之前发生了跟随。我需要确保跟进之后。 b)如果下周发生了跟进,那么它就没有关联。

1 个答案:

答案 0 :(得分:0)

将日期时间重新编码为年,月,工作日,分钟或秒等几个因素并提供适当的汇总是一种合理的方法,尤其是在您尝试确定季节性或趋势时。

您能否详细解释一下您想要预测/完成的内容?