我有一个熊猫数据框,其中包含1988年至2018年的每月开盘价,最高价,最低收盘价和几千只股票的交易量。我正在尝试构建序列长度= 3的LSTM模型。
但是,某些股票可能已在198802018年中途退市,因此每只股票可能没有相同数量的数据点。
这是我的df的示例:
date stock_number Open High Low Close Volume
1988-01-29 1 18.50 19.25 18.00 18.75 100000
1988-02-29 1 17.25 19.00 16.50 17.00 150000
1988-03-31 1 22.25 22.50 21.50 21.75 200000
1988-04-29 1 23.15 23.75 22.50 23.75 275000
1988-05-31 1 25.25 26.25 24.75 25.75 289000
1988-06-30 1 30.25 31.25 29.75 30.75 190000
1990-01-29 2 32.50 35.25 32.50 35.00 125000
1990-02-28 2 35.25 36.00 35.00 35.00 1230000
1990-03-31 2 27.25 27.50 25.50 25.75 200000
1990-04-29 2 25.15 25.75 24.50 25.75 275000
1990-05-31 2 25.25 26.25 24.75 25.75 289000
1990-06-30 2 30.25 31.25 29.75 30.75 190000
我正在尝试建立一个通用的LSTM模型,以研究此数据框中所有股票的行为,并预测我想要的股票的收盘价,因为它们可能都具有相似的特征或相关性。我想进行一次阻塞火车测试拆分,如图所示,它使用10年的数据进行训练,并在第11年进行测试,依此类推...等等。请问有人知道如何做到这一点吗?预先谢谢你!