应用错误收集

如何为未知单词获取随机word2vec向量？

时间：2017-01-07 04:59:05

标签： machine-learning nlp word2vec

我在列车数据上训练word2vec，但是测试数据中有一些词不在列车数据中，那么如何生成与原始数据分布或数字范围匹配的单词矢量？

1 个答案:

答案 0 :(得分：1)

您可以在词汇表中列出非常用单词列表并对其进行平均，以获得未知单词的近似单词向量。

OR

让我们说你的目标未知单词是w，并且它在c-2 c-1 w c1 c2 c-2，c-1，c1和{{ 1}}是上下文单词。您可以将所有上下文单词的嵌入平均值作为未知单词的良好近似值。