使用min hash估计集合相似性的最佳排列数

时间:2017-11-23 01:46:24

标签: bigdata similarity locality-sensitive-hash minhash

假设我必须找到估算文档A和B之间的jaccard相似性,并使用这些集合/文档的并集的k个随机排列来确定文档的签名。

我该如何设置我的k值?由于将其设置为非常高的值会显着增加计算时间,可能是k的最小值可以给我一个良好的jaccard索引估计值?

给定误差容限e> 0和delta,我如何确定k的最小值,使得jaccard指数介于(1-e)jaccard_estimate和(1 + e)jaccard_estimate之间,概率大于或等于(1 -delta)?

我相信这可以使用chernoff不等式绑定得出,但我无法想象如何去做。任何帮助,将不胜感激。提前谢谢!

0 个答案:

没有答案