我有一套预先训练过的word2vec单词向量和一个语料库。我想使用单词向量来表示语料库中的单词。语料库中有一些单词,我没有训练过单词向量。处理那些没有预先训练过的矢量的单词的最佳方法是什么?
我听过几个建议。
为每个缺失的单词使用零向量
为每个缺失的单词使用随机数的向量(有一堆关于如何绑定这些randoms的建议)
我的想法:从所有预先训练的矢量中取一个矢量,其值是该位置中所有值的平均值
有问题经验的人有关于如何处理这个问题的想法吗?
答案 0 :(得分:3)
来自Facebook的FastText汇集了来自子词n-gram的单词向量,这使得它可以处理词汇单词。有关此方法的详情,请参阅:Out of Vocab Word Embedding
答案 1 :(得分:2)
在经过预先训练的word2vec
嵌入矩阵中,通常可以使用单词unk
作为索引来查找通常是最佳向量的预先设计向量。