用于查找集群的LSH实现

时间:2014-12-02 08:33:17

标签: java python minhash

嗨伙计们。 我是堆栈交换的新手,我目前正在研究图论。

我要问的一组问题非常具有介绍性,因为我是一名初级程序员(不熟悉哈希,桶,向量等数据结构)。

我的想法是接收表格的数据集(时间戳t,节点i,节点j),其表示在时间t处i和j之间存在边缘。我们的想法是搜索每个节点的邻域集并散列它们。如果他们的“向量”(我不明白那是什么)哈希进入同一个桶 - 它们是群集形成的候选者。

但问题是我想做实验并尝试运行它。但是我不知道如何实现哈希函数,然后将它们组合在一起。

我不是说用代码帮我解决。但是指针(伪代码)会非常有用。就像告诉我初始化哈希表等等

1 个答案:

答案 0 :(得分:0)

哈希码是一个整数,它是根据您想要散列的内容的属性计算出来的。然后将该数字用作数组的索引。

在这种情况下,您似乎希望使用向量的N维来计算此哈希码。您可以编写一个函数来计算哈希码,使得应该聚簇的向量都获得相同的哈希码。

使用Web搜索很容易找到有关Java或Python中哈希表的语言特定详细信息。