如何在H2O的无人驾驶AI中格式化数据集以进行时间序列预测

时间:2018-08-17 18:31:40

标签: dataset time-series h2o driverless-ai

为简单起见,假设我试图预测第二天的单值变量序列,因此我的数据表将采用以下形式:

input    label
   x1       x2
   x2       x3
   x3       x4
  ...      ...
   xt      xt+1

但是,对于许多不同的用户,我的数据在时间上具有相同的顺序,因此采用以下格式:

input    label
 u1x1     u1x2
 u1x2     u1x3
 u1x3     u1x4
  ...      ...
 u1xt   u1xt+1
 u2x1     u2x2
 u2x2     u2x3
 u2x3     u2x4
  ...      ...
 u2xt   u2xt+1
  ...      ...
 unx1     unx2
 unx2     unx3
 unx3     unx4
  ...      ...
 unxt   unxt+1

构造此数据并将其馈送到DAI以便不将其视为一个完整的长序列,而是将一堆时间上不直接相关的序列并行处理的可接受方法是什么?

编辑:数据具有“用户ID”列。 DAI可以自动使用它来克服我正在解释的问题吗?

1 个答案:

答案 0 :(得分:1)

要格式化数据以进行预测,您需要汇总每个兴趣组和特定时间段(以您的情况为一天)的数据。

因此,如果您的预测范围是一天,则需要按用户,单值变量和按天进行汇总,以使您有一个目标(标签)作为每天的总额。您可以找到有关如何为无驱动程序herehere设置数据的文档。

编辑 回应评论:

这是另一个示例,该示例使用以下假设来解释预期的数据格式:每个用户应在当天进行汇总:

如果您有5个用户的一天数据量,那么您的数据集应该只有5行,但是,如果您有5个用户的10天数据量,则应该有50行数据。

然后在无人驾驶AI中设置实验时,将时间组设置为“用户”列