作为我正在为学习做的项目的一部分,我正在寻找一种方法来使用LSH的散列函数和Spark。有没有办法这样做?
答案 0 :(得分:2)
尝试此实施:
https://github.com/mrsqueeze/spark-hash
引自README,“这个实现很大程度上是基于大规模数据集挖掘第3章中描述的算法”,它对LSH和minhashing有很好的描述。
答案 1 :(得分:1)
最近发布的Spark版本(2.1.0)提供了对LSH的内置支持,但显然只有in the Scala API(还没有在PySpark中)。