使用Word嵌入查找大型语料库中的概念

时间:2016-02-28 10:35:07

标签: gensim word2vec word-embedding

我试图从Konkani语言中找出语料库中的新概念。 我曾经在1)一个领域特定的语料库2)上训练了两个模型。

我使用过Gensim word2vec来训练模型但是我无法在向量空间中获得类似含义的术语。

关闭的单词显示没有彼此同义的关系。它们的相似性和一些随机词一样好。

我做错了什么?

1 个答案:

答案 0 :(得分:0)

你的语料库有多大?

要让训练有素的矢量有意义,你需要至少1亿个单词语料库(假设大约有1-2百万个独特单词)。

如果您使用了负抽样而不是分层抽样,您可以怀疑采样方法,但我仍然认为小语料库大小是您的主要问题。

相关问题