标签: lstm har
我正在建立人类动作识别。
如果我有一个包含38086个视频样本的数据集,则一个样本包含300帧,一个帧包含150个特征。视频样本对应于一个动作。
因此,在这种情况下,我必须构建一个LSTM模型,该模型包含300个单位(输入的X维度为每个单位的(1,150)),以预测动作(视频样本),不是吗?
以另一种方式,时间步长= 300,输入X尺寸=(1,150)?