标签: machine-learning nlp text-classification word2vec word-embedding
我是NLP的新人,我尝试做文本分类工作。在做这项工作之前,我知道我们应该进行单词嵌入。 我的问题是我应该只在训练数据上进行单词嵌入工作(以便测试数据仅从预先训练的训练数据的vec模型获得矢量),或者两者都用于训练数据和训练数据。测试数据?
答案 0 :(得分:0)
这是一个非常重要的问题。在NN社区中,人们通常做的是在训练集中使用阈值(即频率<= 2)并且用UNK令牌替换出现小于该阈值的所有单词。然后在测试时间内,如果有一个单词与实际的训练集单词不匹配,UNK的表示将替换它。