r使用glm /二项式训练日期时间戳模型

时间:2018-03-07 02:07:13

标签: r machine-learning logistic-regression

我的数据模型包含mk(均为数字),startTimeStamp(Posix)和isProcessActive(true / false)

我已收集这些数据超过5天,每行代表一分钟,大约300分钟的数据。 (有些日子会丢失)。丢弃EndTimeStamp列,因为glm摘要对于此数据点来说无关紧要。

IsProcessActive基于

  1. mk> 500
  2. 前一个和当前startTimeStamp之间的差异&gt; 65秒或< 18分钟,mk可以是0或大于0.
  3. 示例数据:

    m      k   startTimeStamp            IsProcessActive 
    
    550     0     1st March 2018, 11:00AM        1
    1550    11    1st March 2018, 11:02AM        1
    5       0     1st March 2018, 11:05AM        1
    50      50    1st March 2018, 11:06AM        0
    0       0     1st March 2018, 11:08AM        0
    0       0     1st March 2018, 11:18AM        1
    

    将glm与二项式链接一起使用,输出预测适用于m和/或k的任何/所有组合。但始终无法预测startTimeStamp差异&gt; m&amp; k为0。

    希望我能解释清楚自己。请帮忙。

1 个答案:

答案 0 :(得分:0)

最后,此问题由2次更改修复。

1。将startTimeStamp替换为diffTime,它是计算上一次和当前观察之间的时间差(以秒为单位)。如果该值是> 65或者&lt; 1200,isProcessActive设置为1,与其他2个值无关。

2。 glm仍无法预测,因此切换到randomForest。现在我有90%的准确度,几乎95%的diffTime预测。