应用错误收集

如何为视频字幕训练模型？我以前使用过图像字幕，因为我们基本上有CNN架构（VGG16），然后是LSTM架构。 CNN生成的功能用作LSTM的输入。有人可以帮我了解视频字幕的工作原理吗？我的想法如下：

1）每个帧特征都可以输入到LSTM中，并针对该特征生成标题。视频中的每个帧功能都会继续执行此操作，我们有许多字幕。然后，使用某些NLP技术，将所有这些字幕转换为具有所有合并信息的单个字幕。

2）我们向LSTM提供了帧的功能，该功能会生成字幕。然后，对于下一帧的下一个功能，LSTM的输入将是前一个字幕以及此CNN功能。类似地，对所有框架功能执行此操作，将给出最终的标题。

LSTM如何为多个CNN功能生成一个标题。

非常感谢您的帮助。非常感谢您阅读。