标签: machine-learning nlp word2vec
我正在使用tensorflow word2vec模块训练大量的句子,训练完成后,就余弦相似度而言,词语相似度非常高。例如,如果我搜索前50个相似的词,例如“ math”(这是词汇的一部分),则这些返回的词与“ math”的余弦相似度接近0.9999。语料库中的大多数其他词也是如此。这使得很难检索给定单词的最接近单词。培训中可能出什么问题? (损失值在接近0的时间后稳定下来,可以认为学习率很低,有足够的训练时间了)