我一直在阅读关于局部敏感哈希的文献,我认为对它的工作方式有很好的理解。考虑到单个哈希表的最简单情况,其中每个文档只在一个桶中,我的问题是:
如何找到k个最近邻居,其中k大于该存储桶中的文档数量?
我已经看到了实现这一目标的几种方法。有些人使用prefix tree。其他人按照hamming distance对所有桶进行排序。
我的约束:
我的文档ID存储在 PostgreSQL 中,与各自的存储区一起存储。用于计算每个存储桶的汉明距离的全表扫描 不可行(我有数亿个文档)。我的桶哈希可能是 24,或32位(除非有针对此的建议)。有没有人有关于如何进行的经验或建议的方法?