假设我必须找到估算文档A和B之间的jaccard相似性,并使用这些集合/文档的并集的k个随机排列来确定文档的签名。
我该如何设置我的k值?由于将其设置为非常高的值会显着增加计算时间,可能是k的最小值可以给我一个良好的jaccard索引估计值?
给定误差容限e> 0和delta,我如何确定k的最小值,使得jaccard指数介于(1-e)jaccard_estimate和(1 + e)jaccard_estimate之间,概率大于或等于(1 -delta)?
我相信这可以使用chernoff不等式绑定得出,但我无法想象如何去做。任何帮助,将不胜感激。提前谢谢!