我正在尝试使用LSTM进行序列分类。假设我有两个时间序列,分别是序列A和序列B。时间序列A的长度几乎是序列B的100倍。我想开发一个平衡的数据集来预测这些时间序列的窗口化版本。>
假设我的数据如下所示
series_a = "ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789"
series_b = 'ijklmnopq'
我的目标是开发一个看起来像这样的数据集(假设窗口为5,重叠率为80%):
sequence -----label
ABCDE 1
BCDEF 1
CDEFG 1
.
.
.
ijklm 2
jklmn 2
klmno 2
...
我有两个问题:
1-我应该设置多少重叠?有什么标准吗?如果重叠程度较低,则数据会大量减少,而如果重叠程度过多,则可能会使模型产生偏差。
2-我可以为时间序列A设置一个重叠窗口,为时间序列B设置一个不同的值吗?这可以使我拥有平衡的数据集,因为对于B系列,我可以有更大的重叠量,而对较小的时间序列可以上采样。这是有效的上采样方法吗?
任何想法或过去的经验都受到高度赞赏。