如何为视频字幕训练模型?我以前使用过图像字幕,因为我们基本上有CNN架构(VGG16),然后是LSTM架构。 CNN生成的功能用作LSTM的输入。有人可以帮我了解视频字幕的工作原理吗?我的想法如下:
1)每个帧特征都可以输入到LSTM中,并针对该特征生成标题。视频中的每个帧功能都会继续执行此操作,我们有许多字幕。然后,使用某些NLP技术,将所有这些字幕转换为具有所有合并信息的单个字幕。
OR
2)我们向LSTM提供了帧的功能,该功能会生成字幕。然后,对于下一帧的下一个功能,LSTM的输入将是前一个字幕以及此CNN功能。类似地,对所有框架功能执行此操作,将给出最终的标题。
LSTM如何为多个CNN功能生成一个标题。
非常感谢您的帮助。非常感谢您阅读。