应用错误收集

假设我必须找到估算文档A和B之间的jaccard相似性，并使用这些集合/文档的并集的k个随机排列来确定文档的签名。

我该如何设置我的k值？由于将其设置为非常高的值会显着增加计算时间，可能是k的最小值可以给我一个良好的jaccard索引估计值？

给定误差容限e> 0和delta，我如何确定k的最小值，使得jaccard指数介于（1-e）jaccard_estimate和（1 + e）jaccard_estimate之间，概率大于或等于（1 -delta）？

我相信这可以使用chernoff不等式绑定得出，但我无法想象如何去做。任何帮助，将不胜感激。提前谢谢！