我正在研究一个多元时间序列数据集,其中多个测量值由不同的传感器记录。测量次数因传感器而异。我的目标是使用 LSTM 模型进行异常检测。数据位于熊猫数据框中,如下所示:
Sensor ID Recorded Measurement_B Measurement_C
1 1 0.4 0.1
1 2 0.3 0.3
1 3 0.6 0.5
1 4 0.5 0.5
1 5 0.55 0.3
2 1 0 0
2 2 0.55 0.1
3 1 0.5 0.6
3 2 0.8 0.7
3 3 0.8 0.5
我想我可以找到 Sensor ID
的最大大小并尝试使用某种 GroupBy
来填充 0,但我还不确定如何做到这一点。
或者,我一直在尝试阅读有关使用 keras 的 pad_sequences
的信息,但是不明白我的数据需要采用什么形状才能使用它(因为很多示例都出现在单变量序列上)。每个 Sensor ID
是否需要是一个列表数组(每个列表代表一个观察)?
任何建议将不胜感激。