应用错误收集

时间：2019-05-10 07:34:10

标签： nlp word2vec doc2vec

我正在建立一个模型，以便根据上下文从某个时间范围开始播放视频。例如，电影的播放高潮从第59分钟开始播放。

我正在使用视频的字幕，并按特定顺序匹配文本并标识时间范围。我正在尝试查找具有真实表达$$的确切单词，但效果不佳。我遇到了word2vec，它可以找到具有余弦相似度的类似单词

答案 0 :(得分：0)

请根据您发布的内容发布网络研讨会标题和搜索字词的示例，以获得更好的答案。如果您使用的是像英语这样的语言，并且已经有几种预先训练的向量，则不必训练新的word2vec模型。步骤如下：

1）使用预先训练的word2vec向量计算搜索词的向量。

2）计算每个字幕的向量并存储在适当的列表中

3）使用ML库中的cosine_similarity函数计算步骤1中的向量与步骤2中列表中的每个向量之间的相似度。

4）您正在寻找相似度得分最接近1的字幕，并且可以反向查找该帧的相关时间