应用错误收集

我正在使用tensorflow word2vec模块训练大量的句子，训练完成后，就余弦相似度而言，词语相似度非常高。例如，如果我搜索前50个相似的词，例如“ math”（这是词汇的一部分），则这些返回的词与“ math”的余弦相似度接近0.9999。语料库中的大多数其他词也是如此。这使得很难检索给定单词的最接近单词。培训中可能出什么问题？（损失值在接近0的时间后稳定下来，可以认为学习率很低，有足够的训练时间了）

具有非常相似的嵌入词是什么意思？

0 个答案: