我正在处理64位哈希的大型数据集。该馆藏目前为140万,每天增加5万。
我需要针对数据集中的所有哈希值不断检查新哈希值,并尽快找到特定汉明距离内的匹配项。
我目前正在将数据构建到VP树中并进行搜索。
我正在使用该库的这个库:https://pypi.org/project/vptree/
搜索树需要3分钟以上的时间,大约需要10分钟来构建。每天越来越长。
我希望能够跟上来来的音量。但是,现在我正在使用36个可用的内核,而且还没有结束。
我希望获得有关解决此问题的更好方法的建议。我不知道的工具,不同的算法等。使用这种大小的数据集对我来说是新的。
我们将不胜感激。