时间序列分类-有多少重叠?

时间:2019-07-06 21:19:35

标签: machine-learning deep-learning time-series lstm data-cleaning

我正在尝试使用LSTM进行序列分类。假设我有两个时间序列,分别是序列A和序列B。时间序列A的长度几乎是序列B的100倍。我想开发一个平衡的数据集来预测这些时间序列的窗口化版本。

假设我的数据如下所示

series_a = "ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789"
series_b = 'ijklmnopq'

我的目标是开发一个看起来像这样的数据集(假设窗口为5,重叠率为80%):

sequence -----label
ABCDE         1
BCDEF         1
CDEFG         1
.
.
.
ijklm         2
jklmn         2
klmno         2
...

我有两个问题:

1-我应该设置多少重叠?有什么标准吗?如果重叠程度较低,则数据会大量减少,而如果重叠程度过多,则可能会使模型产生偏差。

2-我可以为时间序列A设置一个重叠窗口,为时间序列B设置一个不同的值吗?这可以使我拥有平衡的数据集,因为对于B系列,我可以有更大的重叠量,而对较小的时间序列可以上采样。这是有效的上采样方法吗?

任何想法或过去的经验都受到高度赞赏。

0 个答案:

没有答案