单词嵌入中缺少单词

时间:2017-10-25 11:51:34

标签: nlp word2vec word-embedding

如果我有一个word2vec模型,我用它来嵌入火车和测试集中的所有单词。但是用正确的词语,在word2vec模型中不包含。我可以随机将一个向量作为所有正确单词的嵌入。 如果可以,请给我一些提示和一些论文参考。 谢谢

1 个答案:

答案 0 :(得分:0)

不清楚你在问什么;尤其是"正确的单词"?

但是,如果在训练之后,您希望模型中的单词不在模型中,那通常是由以下两种情况引起的:

(1)您如何对语料库进行预处理/标记化的问题,以便您提供的单词不是。因此,请仔细检查您传递给培训的数据。

(2)参数和期望不匹配。例如,如果执行min_count为5的训练(某些word2vec库中的默认值),则将忽略少于5次的任何单词,因此不会接收单词向量。 (对于整体的单词矢量质量来说,这通常是一件好事,因为低频词不能为自己获得好的单词矢量,但是通过与其他单词交错仍然可以轻微地干扰那些其他单词'训练。)

通常会仔细检查输入,启用日志记录并查看任何可疑的问题指标,并仔细检查后期培训模型中包含的内容可以帮助推断出错误的原因。