我想知道similarity如何与gensim一起工作?如何创建不同的分片,并且只查看前N个类似文档时它是否会提高性能?更一般地说,是否有关于gensim内部结构的文档?
答案 0 :(得分:1)
gensim内部的文档是完整的源代码:
https://github.com/RaRe-Technologies/gensim
对于像这样的高维数据,找到精确前N个最相似的向量通常需要对所有候选进行穷举搜索。也就是说,没有简单的分片可以让大多数矢量被忽略,因为距离太远而且仍能提供精确的结果。
有 近似索引技术,如ANNOY,可以加快搜索速度......但是它们往往会错过一些真正的前N个结果。 Gensim包含demo notebook of using ANNOY-indexing with gensim's word2vec support。 (应该可以与其他文本向量做类似的事情,比如你链接的教程中的词袋表示。)