Gensim的相似之处:它是如何运作的?

时间:2017-07-27 09:10:02

标签: python nlp gensim

我想知道similarity如何与gensim一起工作?如何创建不同的分片,并且只查看前N个类似文档时它是否会提高性能?更一般地说,是否有关于gensim内部结构的文档?

1 个答案:

答案 0 :(得分:1)

gensim内部的文档是完整的源代码:

https://github.com/RaRe-Technologies/gensim

对于像这样的高维数据,找到精确前N个最相似的向量通常需要对所有候选进行穷举搜索。也就是说,没有简单的分片可以让大多数矢量被忽略,因为距离太远而且仍能提供精确的结果。

近似索引技术,如ANNOY,可以加快搜索速度......但是它们往往会错过一些真正的前N个结果。 Gensim包含demo notebook of using ANNOY-indexing with gensim's word2vec support。 (应该可以与其他文本向量做类似的事情,比如你链接的教程中的词袋表示。)