假设我已经根据一些哈希值构建了一个LSH数据库,我现在开始查询数据库以找到近似的最近邻居。
对于计算查询点的哈希值时,会出现什么指导,并且相应的存储桶为空?同样地,假设我想找到5个近似最近邻居,并且该桶只有4个其他数据点?
答案 0 :(得分:1)
我认为检索得分太少意味着你的训练数据有太多的存储桶。当然,这取决于应用程序。看看LSH toolbox by Greg Shakhnarovich实施和他的README file。在这个实现中,更少的散列函数(更小的k)意味着更丰富的桶,这反过来意味着更慢的LSH。