深度学习训练有差距的数据集

时间:2017-09-21 18:22:47

标签: python deep-learning lstm

我有一个传感器(工作站)的数据集已经有几年这种结构了:

station Direction   year    month   day dayOfweek   hour    volume
  1009       3      2015      1      1      5        0        37
  1009       3      2015      1      1      5        1        20
  1009       3      2015      1      1      5        2        24
   ...       .       ..       ..     ..     ..       ..       ..

此数据中存在大量差距(缺失值)。例如,错过了一个月或几天。我用0填充错过的卷。我想根据以前的数据预测卷。我使用LSTM并且平均绝对百分误差(MAPE)在20左右相当高,我需要减少它。

我遇到的主要问题是即使是训练我也有差距。这些数据的深度学习还有其他技术吗?

1 个答案:

答案 0 :(得分:1)

有多种方法可以处理此处列出的缺失值(https://machinelearningmastery.com/handle-missing-data-python/)。

如果我有足够的数据,我将只省略缺少数据的行。如果我没有足够的数据和/或必须预测数据丢失的情况,我通常会尝试这两种方法并选择具有更高精度的方法。

和你一样。我选择了一个未包含在数据集中的不同值,例如0,并填写该值。另一种方法是使用训练集的均值或中值。我在验证集/测试集中使用相同的值(在训练集上计算)。如果平均值在当前背景下没有意义,则中位数优于均值。 (例如2014.5年)。