我正在尝试创建W2V模型,然后生成用于模型的火车和测试数据。我的问题是,用火车数据创建W2V模型后,如何生成测试数据。
答案 0 :(得分:0)
Word2Vec被认为是“无监督”算法,因此至少在其培训期间,通常不保留任何“测试”数据以供以后评估。
然后通常会评估Word2Vec模型对其他过程的帮助程度,例如原始论文强调的类比解决方案。在gensim中,方法[evaluate_word_analogies()][1]
可以重复该过程。但是请注意:在词类比上表现最好的词向量(不是 )最好用于其他目的,例如分类或信息检索。始终最好以与您的实际基础使用相关的可重复方式来评估和调整字向量。
(如果您使用的是Word2Vec模型的输出-特定于您域的单词向量-作为较大系统的一部分,在该系统中应使用保留的数据评估某些步骤,请决定是否训练Word2Vec组件