利用LSTM网络编码时间序列预测

时间:2018-04-09 09:28:47

标签: machine-learning encoding lstm recurrent-neural-network training-data

我有一个大数据集,其中包含以下形式的条目:

user_id,measurement_date,value1,value2,..

出现的挑战是如何处理数据中的差距。 测量是随机进行的,因此总是会有较小的间隙和非常大的间隙。

这里处理缺失数据的最佳方法是什么。

我正在考虑以下方法:

  • 对于所有不存在的测量,使用特殊向量。 (这导致不实用的训练数据,因为非测量的条目接管)
  • 与上述类似,但将多个非测量分组到一个矢量中,例如。引入一个向量,表示未进行测量的天数。

我现在的问题是对此进行编码的最佳方法是什么。

目前,LSTM网络以未编码的输入向量的形式获得输入:

vector1, vector2,..

向量包含值。

但现在当我产生新的符号时,如:

  s1 := <=3 days no measurement taken
  s2 := <=7 ..

我会对它们进行热编码。

最好引入两种单词类型之间的前缀吗?

E.g。

 1 vector -> 1, value1, value2
 0 vecotr -> 0, 0, 1 (s1)
          -> 0, 1, 0 (s2)

1 个答案:

答案 0 :(得分:0)

实际上不可能以任何方式编码。