Locality Sensitive Hashing的Spark实现

时间:2014-12-31 09:18:19

标签: apache-spark locality-sensitive-hash

作为我正在为学习做的项目的一部分,我正在寻找一种方法来使用LSH的散列函数和Spark。有没有办法这样做?

2 个答案:

答案 0 :(得分:2)

尝试此实施:

https://github.com/mrsqueeze/spark-hash

引自README,“这个实现很大程度上是基于大规模数据集挖掘第3章中描述的算法”,它对LSH和minhashing有很好的描述。

答案 1 :(得分:1)

最近发布的Spark版本(2.1.0)提供了对LSH的内置支持,但显然只有in the Scala API(还没有在PySpark中)。