使用Levenshtein距离作为度量,我想找到大量字符串中所有元素的精确k近邻,但我还不确定k的值有多高。是否存在允许我推迟此选择的算法或数据结构,并且在首先计算k的较高值时,逐渐增加k而没有显着的效率成本?如果可能的话,我希望能够灵活地为不同的元素使用不同的k值。
我有许多我可以使用的数据集,但我想使用一个500000字符串,每个大约100个字符,这将使方法接近O(N ^ 2)调用距离函数花太长时间。
我尝试过使用GNAT,但发现knn查询有点太慢(通常接近每个元素的N个距离函数调用)。