应用错误收集

Gensim的相似之处：它是如何运作的？

时间：2017-07-27 09:10:02

标签： python nlp gensim

我想知道similarity如何与gensim一起工作？如何创建不同的分片，并且只查看前N个类似文档时它是否会提高性能？更一般地说，是否有关于gensim内部结构的文档？

1 个答案:

答案 0 :(得分：1)

gensim内部的文档是完整的源代码：

https://github.com/RaRe-Technologies/gensim

对于像这样的高维数据，找到精确前N个最相似的向量通常需要对所有候选进行穷举搜索。也就是说，没有简单的分片可以让大多数矢量被忽略，因为距离太远而且仍能提供精确的结果。

有近似索引技术，如ANNOY，可以加快搜索速度......但是它们往往会错过一些真正的前N个结果。 Gensim包含demo notebook of using ANNOY-indexing with gensim's word2vec support。（应该可以与其他文本向量做类似的事情，比如你链接的教程中的词袋表示。）

内存碎片整理软件。它是如何工作的？它有用吗？
字符串相似性：Bitap究竟是如何工作的？
Mahout如何存储用户首选项以允许快速相似度计算以及它如何工作？
Gensim的文档相似度可以用作监督分类吗？
Elasticsearch改变相似性不起作用
gensim的word2vec与张量流向量表示有何不同？
Gensim的相似之处：它是如何运作的？
它是如何工作的？
SpaCy的相似性功能如何工作？
word2vec如何找到句子相似性？

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？