关于n置换的Minhash实现的建议

时间:2018-11-10 15:43:55

标签: python matrix dataset bigdata data-mining

我试图了解LSH的实现。我在stackoverflow上找到了

Can you suggest a good minhash implementation?

我尝试遵循Duhaime的实施方式。

就我而言,我希望对minhash应用置换(例如在datasketch工具中),我认为此实现对我不利。 我已经从稀疏矩阵开始了。

有人可以对此技术提出一些建议吗?不是很分散,所以我找不到关于使用Python实现的更多材料。

希望您能帮忙。

1 个答案:

答案 0 :(得分:0)

不仅要查找示例代码。尝试了解其背后的数学原理。

显然,maxhash应该工作类似。或者,您可以省略0个值。但是然后您应该仔细检查数学。