在word2vec中设置“未知”或“未知”词向量的最佳解决方案是什么?

时间:2018-08-20 10:59:45

标签: machine-learning nlp word2vec

我通常将unk'value设置为随机分布向量或0-向量。
我认为它的表现还不错,但是在大多数情况下,对于许多任务来说也不是最好的。
但是我很好奇处理“ unk”字向量的最佳方法,感谢任何有用的建议。

1 个答案:

答案 0 :(得分:0)

如果要训练单词向量,最常见的策略是完全丢弃低频词。 (在Google最初的min_count,Python gensim word2vec.c等中,Word2Vec设置就是这样做的。)

在序列学习场景中,是否需要记住某物在某个特定位置会更常见,而不是普通的word2vec。 (如果这是您的担忧,则可以让您的问题更具体地说明为什么以及如何使用单词向量。)