应用错误收集

首先，您要考虑访问数据的密钥。您想要哈希的是这些键 - 如果您知道要访问的确切键，则可以对它们进行哈希处理，以确定要查询的服务器 - 无需查询每个服务器。

如果您不知道确切的密钥（因为我怀疑是您的情况），事情会变得更难 - LSH会为您的记录生成总排序 - 类似的记录可能（但不能保证）具有相同的哈希值。我认为这是，例如，超平面到其原始矢量长度的映射...因此，例如，如果搜索类似（但不相同）的超平面到4到5之间的超平面来自原点的单位，一个开始寻找的好地方是其他来自原点的4到5个单位之间的超平面。因此，如果这个“距离原点的距离”是您的位置敏感哈希函数，您可以使用它来shard您的数据，并且这样做 - 您可以通过仅搜索分片来减少负载（同时增加最坏情况延迟）具有匹配的'距离原点'LCH。利用这种特定的LCH，其中相似性与散列线性相关，有可能在仅访问分布式服务器的子集时获得确定的结果。所有LSH功能都不是这种情况。

恕我直言，一切都取决于您的LSH功能 - 选择取决于您的应用程序的具体情况。

分布式LSH（局部敏感散列）

1 个答案: