正如标题所示,我有一个时间序列数据集,并且有大量缺失的数据。处理LSTM模型的最佳方法是什么?
为了进一步详细说明,我有大约五个数据源来创建数据集,其中一些不允许我获取历史数据,因此我对该源中的功能缺少相当多的内容。我可以填写一些使用最近观察到的样本,但在大多数情况下是不可能的。
我看到的一些建议是:
但是对于我来说,我觉得我将失去很多数据完整性。通常如何处理/在LSTM模型中调整此方法的最佳方法是什么?
我正在使用Python / Keras / TensorFlow。
答案 0 :(得分:3)
在模型的顶层可能有masking可能会有所帮助。
对于输入张量中的每个时间步长(张量中的维#1),如果该时间步长的输入张量中的所有值都等于mask_value,那么将在所有下游层中屏蔽(跳过)时间步长(因为他们支持掩蔽)。