我试图从Konkani语言中找出语料库中的新概念。 我曾经在1)一个领域特定的语料库2)上训练了两个模型。
我使用过Gensim word2vec来训练模型但是我无法在向量空间中获得类似含义的术语。
关闭的单词显示没有彼此同义的关系。它们的相似性和一些随机词一样好。
我做错了什么?
答案 0 :(得分:0)
你的语料库有多大?
要让训练有素的矢量有意义,你需要至少1亿个单词语料库(假设大约有1-2百万个独特单词)。
如果您使用了负抽样而不是分层抽样,您可以怀疑采样方法,但我仍然认为小语料库大小是您的主要问题。