通过网络研讨会字幕训练word2vec

时间:2019-05-10 07:34:10

标签: nlp word2vec doc2vec

我正在建立一个模型,以便根据上下文从某个时间范围开始播放视频。例如,电影的播放高潮从第59分钟开始播放。

我正在使用视频的字幕,并按特定顺序匹配文本并标识时间范围。我正在尝试查找具有真实表达$$的确切单词,但效果不佳。我遇到了word2vec,它可以找到具有余弦相似度的类似单词

1 个答案:

答案 0 :(得分:0)

请根据您发布的内容发布网络研讨会标题和搜索字词的示例,以获得更好的答案。如果您使用的是像英语这样的语言,并且已经有几种预先训练的向量,则不必训练新的word2vec模型。步骤如下:

1)使用预先训练的word2vec向量计算搜索词的向量。

2)计算每个字幕的向量并存储在适当的列表中

3)使用ML库中的cosine_similarity函数计算步骤1中的向量与步骤2中列表中的每个向量之间的相似度。

4)您正在寻找相似度得分最接近1的字幕,并且可以反向查找该帧的相关时间