如何在保持序列独立性的同时使用tf.data替换时间序列建模管道?

时间:2019-07-18 01:09:58

标签: python tensorflow time-series pipeline tensorflow-datasets

我目前有一个数据集,该数据集包含来自1类的50个独立可变长度序列和来自2类的50个独立可变长度序列。当我在数据集中加载数据时,我已经对其进行了过滤和插值,但是我仍然需要执行一些操作训练之前的步骤。

  1. 应用滑动窗口为我的模型创建固定的时间范围数据集。该滑动窗口需要让用户选择窗口的长度和重叠度。
  2. 数据需要标准化

目前,在训练时,我从第1类的30个窗口序列中选取和从第2类的30窗口序列中随机排序。我为验证集保留3个1类和3个2类序列,然后为我的测试集保留其余的17个1类和2类序列。

对于交叉验证,我有几乎相同的管道,除了每一次折叠,我都会随机选择不同的训练测试和验证序列。

我所有的预处理都是在numpy中执行的,然后使用Tensorflow训练我的模型。

我一直在看tf.data模块,并且想知道是否有一种方法可以用基于端到端的基于Tensorflow的管道替换当前的管道。我目前不确定在将序列放入tensorflow数据集后是否可以保持所有序列的独立性,然后是否可以应用滑动窗口并独立标准化每个序列。我正在寻找有关如何解决此问题的建议或资源。

0 个答案:

没有答案