当k> 1时,用LSH寻找k-nn。桶的大小

时间:2017-04-21 03:20:25

标签: database postgresql computer-science nearest-neighbor locality-sensitive-hash

我一直在阅读关于局部敏感哈希的文献,我认为对它的工作方式有很好的理解。考虑到单个哈希表的最简单情况,其中每个文档只在一个桶中,我的问题是:

如何找到k个最近邻居,其中k大于该存储桶中的文档数量?

我已经看到了实现这一目标的几种方法。有些人使用prefix tree。其他人按照hamming distance对所有桶进行排序。

我的约束:

我的文档ID存储在 PostgreSQL 中,与各自的存储区一起存储。用于计算每个存储桶的汉明距离的全表扫描 不可行(我有数亿个文档)。我的桶哈希可能是 24,或32位(除非有针对此的建议)。有没有人有关于如何进行的经验或建议的方法?

0 个答案:

没有答案