我正在尝试使用Spark MLlib LSH的ClientBuilder.newClient(new ClientConfig(JacksonJsonProvider.class))
:MinHash for Jaccard Distance例如。
.approxSimilarityJoin
据我所知,numHashTables越高,系统越准确,计算越复杂/越慢。我有两个关于参数的问题:
注意:我相信Uber已将该算法添加到MLlib中:https://eng.uber.com/lsh/