应用错误收集

时间：2018-02-09 01:51:33

标签： machine-learning nlp deep-learning word2vec word-embedding

我有一套预先训练过的word2vec单词向量和一个语料库。我想使用单词向量来表示语料库中的单词。语料库中有一些单词，我没有训练过单词向量。处理那些没有预先训练过的矢量的单词的最佳方法是什么？

我听过几个建议。

有问题经验的人有关于如何处理这个问题的想法吗？

答案 0 :(得分：3)

来自Facebook的FastText汇集了来自子词n-gram的单词向量，这使得它可以处理词汇单词。有关此方法的详情，请参阅：Out of Vocab Word Embedding

答案 1 :(得分：2)

在经过预先训练的word2vec嵌入矩阵中，通常可以使用单词unk作为索引来查找通常是最佳向量的预先设计向量。