应用错误收集

大数据集的汉明距离比较

时间：2019-02-13 04:23:08

标签： python-3.x

我正在处理64位哈希的大型数据集。该馆藏目前为140万，每天增加5万。

我需要针对数据集中的所有哈希值不断检查新哈希值，并尽快找到特定汉明距离内的匹配项。

我目前正在将数据构建到VP树中并进行搜索。

我正在使用该库的这个库：https://pypi.org/project/vptree/

搜索树需要3分钟以上的时间，大约需要10分钟来构建。每天越来越长。

我希望能够跟上来来的音量。但是，现在我正在使用36个可用的内核，而且还没有结束。

我希望获得有关解决此问题的更好方法的建议。我不知道的工具，不同的算法等。使用这种大小的数据集对我来说是新的。

我们将不胜感激。

0 个答案:

没有答案