应用错误收集

LSH不会存储整个文档，也不会存储单个小杂项。相反，它会散布“带状”的斑点。

LSH既可以减少每个文档中存储的哈希数，又可以减少使用这些哈希搜索相似文档时发现的匹配数。它通过将多个小杂凑组合到单个哈希中来实现此目的。因此，例如，您可以将它们分成四个频段，而不是每个文档存储200个哈希，以产生50个局部敏感哈希。

使用便宜的哈希函数（例如FNV-1a），根据其组成的哈希值计算每个波段的哈希。这会丢失一些信息，这就是为什么据说LSH会降低数据的维数的原因。产生的哈希是存储桶。

因此，无需了解其他任何条带或任何其他文件，就可以计算出文档中每个散列带的存储桶。

使用LSH哈希查找相似的文档很简单：假设您要查找与文档A相似的文档。首先为文档A生成（例如）50个LSH哈希。然后在您的哈希中查找词典，用于共享一个或多个这些哈希的所有其他文档。它们共享的哈希值越多，它们估计的jaccard相似度就越高（尽管这不是线性关系，因为使用普通的哈希表时是如此）。

每个文档存储的总哈希数越少，估计的jaccard相似度的误差越大，丢失相似文档的机会也就越大。