应用错误收集

优步在Spark LSH中使用numHashTable有什么价值？

时间：2017-11-21 18:02:40

标签： scala apache-spark apache-spark-mllib locality-sensitive-hash minhash

我正在尝试使用Spark MLlib LSH的ClientBuilder.newClient(new ClientConfig(JacksonJsonProvider.class))：MinHash for Jaccard Distance例如。

.approxSimilarityJoin

据我所知，numHashTables越高，系统越准确，计算越复杂/越慢。我有两个关于参数的问题：

numHashTables与MinHash指纹大小之间的关系是什么？
如何正确设置值？

注意：我相信Uber已将该算法添加到MLlib中：https://eng.uber.com/lsh/

0 个答案:

没有答案