生成时间序列以使用LSTM进行时间序列预测

时间:2018-07-11 19:49:25

标签: python sql pandas timestamp time-series

我有一个.db文件,其列如下所述。此数据已由监视文件系统中文件使用情况的软件收集,或者换句话说,生成有关系统中所有文件的元数据。

fid | opcode | count | formatdate (timestamp, YYYY/MM/DD HH:mm)  

124 |   2    |   1   | 2018/06/08 09:00  
454 |   1    |   7   | 2018/06/08 09:01  
433 |   1    |   2   | 2018/06/08 09:01

列的说明如下:
 1. fid:赋予每个文件的唯一文件ID
 2.操作码:这是由软件创建的两个离散值。 1代表读取,2代表写入文件。
 3.计数:一分钟内发生读/写的时间
 4.时间戳:活动发生的时间戳。每个间隔1分钟。例如如果在2018/06/08 9:01:21对该文件进行了读取操作,而另一位用户在2018/06/08 9:01:34进行了另一次读取操作,它将增加计数,并且对于操作码1计数为2时间戳记为2018/06/08 9:01。

现在我需要为每个文件生成时间序列,该文件由8小时的窗口分隔。
因此,我需要的输出是每个文件间隔8小时的时间序列。例如fid = 123 |时间序列:54,64,67,0,53,31,10 ...........
我的数据为6个月,这意味着每个文件的时间序列为3 * 180 = 540。我需要两种时间序列:
1.每个文件的时间序列(活动时间序列)不将读写视为不同,而是将它们加在一起。例如如果一个文件在8小时的第一个窗口内被读取56次并写入32次,它只会添加文件并显示88的活动。因此时间序列将为88 ........(540个术语)< br /> 2.每个文件有两个不同的读写时间序列。

我需要以合适的格式输出时间序列,从中可以复制它们并将其作为numpy数组加载,以训练LSTM模型进行时间序列预测。

0 个答案:

没有答案