具有k的延迟选择的高效kNN图构造

时间:2017-01-06 18:04:36

标签: algorithm levenshtein-distance knn

使用Levenshtein距离作为度量,我想找到大量字符串中所有元素的精确k近邻,但我还不确定k的值有多高。是否存在允许我推迟此选择的算法或数据结构,并且在首先计算k的较高值时,逐渐增加k而没有显着的效率成本?如果可能的话,我希望能够灵活地为不同的元素使用不同的k值。

我有许多我可以使用的数据集,但我想使用一个500000字符串,每个大约100个字符,这将使方法接近O(N ^ 2)调用距离函数花太长时间。

我尝试过使用GNAT,但发现knn查询有点太慢(通常接近每个元素的N个距离函数调用)。

0 个答案:

没有答案