应用错误收集

我一直在阅读关于局部敏感哈希的文献，我认为对它的工作方式有很好的理解。考虑到单个哈希表的最简单情况，其中每个文档只在一个桶中，我的问题是：

如何找到k个最近邻居，其中k大于该存储桶中的文档数量？

我已经看到了实现这一目标的几种方法。有些人使用prefix tree。其他人按照hamming distance对所有桶进行排序。

我的约束：

我的文档ID存储在 PostgreSQL 中，与各自的存储区一起存储。用于计算每个存储桶的汉明距离的全表扫描 不可行（我有数亿个文档）。我的桶哈希可能是 24，或32位（除非有针对此的建议）。有没有人有关于如何进行的经验或建议的方法？