Question

我正在尝试使用LSTM进行序列分类。假设我有两个时间序列，分别是序列A和序列B。时间序列A的长度几乎是序列B的100倍。我想开发一个平衡的数据集来预测这些时间序列的窗口化版本。

假设我的数据如下所示

series_a = "ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789"
series_b = 'ijklmnopq'

我的目标是开发一个看起来像这样的数据集（假设窗口为5，重叠率为80％）：

sequence -----label
ABCDE         1
BCDEF         1
CDEFG         1
.
.
.
ijklm         2
jklmn         2
klmno         2
...

我有两个问题：

1-我应该设置多少重叠？有什么标准吗？如果重叠程度较低，则数据会大量减少，而如果重叠程度过多，则可能会使模型产生偏差。

2-我可以为时间序列A设置一个重叠窗口，为时间序列B设置一个不同的值吗？这可以使我拥有平衡的数据集，因为对于B系列，我可以有更大的重叠量，而对较小的时间序列可以上采样。这是有效的上采样方法吗？

任何想法或过去的经验都受到高度赞赏。