我是GloVe的新手。我成功运行了他们网站上提供的demo.sh。运行演示后,我创建了几个文件,例如vocab
,vectors
等。但是它们没有任何文档或任何描述我们需要使用哪些文件以及如何使用它们来查找大多数相似单词的文件。
因此,请帮助我在GloVe中找到最相似的单词(使用余弦相似度)? (例如,像Gensim word2vec中的most.similar
)
请帮助我!
答案 0 :(得分:1)
生成单词向量并不重要,您始终可以计算单词之间的余弦相似度。实现你所要求的最简单的方法是(考虑到你有gensim):
python -m gensim.scripts.glove2word2vec –input <GloVe vector file> –output <Word2vec vector file>
这会将手套矢量文件转换为w2v格式。您也可以手动执行此操作 - 只需在GloVe文件中添加额外的行,其中包含文件顶部的向量总数及其维度。它看起来像是一个亲属:
180000 300
<The rest of your file>
之后你可以将文件加载到gensim中,一切都在运行,好像它是一个普通的w2v模型。