我通常将unk'value设置为随机分布向量或0-向量。
我认为它的表现还不错,但是在大多数情况下,对于许多任务来说也不是最好的。
但是我很好奇处理“ unk”字向量的最佳方法,感谢任何有用的建议。
答案 0 :(得分:0)
如果要训练单词向量,最常见的策略是完全丢弃低频词。 (在Google最初的min_count
,Python gensim word2vec.c
等中,Word2Vec
设置就是这样做的。)
在序列学习场景中,是否需要记住某物在某个特定位置会更常见,而不是普通的word2vec。 (如果这是您的担忧,则可以让您的问题更具体地说明为什么以及如何使用单词向量。)