我使用了gensim Word2Vec模型并将其应用于我的文档列表中。好吧,嵌入式这个词正在被创造出来。我想知道Word2Vec在我的文档列表中是否表现良好。是否有任何衡量标准?我将如何理解Word2Vec在文档语料库上是否确实运行良好,还是应该尝试一些其他的嵌入? 以下是我从gensim使用的代码。
import gensim
model = gensim.models.Word2Vec(documents , size=150, window=10, min_count=2, sg=1, workers=10)
答案 0 :(得分:0)
“表现良好”没有统一的定义。这取决于您的最终目标。
为什么要创建单词向量?您希望他们提供什么价值?
有了这些问题的答案,您可以首先以非正式的,即席的方式查看结果:查看一些最接近的单词(wordvecs.most_similar(query_word)
的结果)以查看它们是否有意义满足您的需求和问题域。
但是要真正测试您的模型是否随着时间的推移而做得更好,随着数据或模型参数的改进,您应该形成一些与最终目标相匹配的可重复的定量测试。 (例如:您是否需要某些单词对彼此比一个第三个单词更靠近?您是否使用单词向量作为其他一些具有已知已知结果的分类或信息检索过程的输入?)
运行这些测试,对模型评分,然后将一个模型的评分与另一个模型的评分进行比较。