应用错误收集

如果您的最大距离为3，那么您可以确保您的字符串具有至少4个字符的相同运行。

您可以散列长度为4的每个段，并检查每个段是否都在数据集中表示。选择存在但具有最小内容的，并在该池中搜索BKTree。如果您的数据集本身不是高度自冗余的，那么这将大大减少您需要执行的搜索范围。（一般来说，你需要像以前一样在BKTrees中保留15倍的条目，所以这需要一些维护费用。）

我不确定这个初始查找步骤是否足够便宜，值得后期改进;这在很大程度上取决于150k字符串的结构，以及输入字符串是否可能与其中一个字符串匹配，或者您是否有很多未命中。

另一种方法是使用lernmatrix-style encoding字符串并找到最近的直通模式完成。由于你需要一个大的矩阵来存储它（可能是大约4M个元素），所以我不愿意为速度推荐这个。所有矩阵乘法都需要几毫秒。（你必须以对Levenstein编辑强有力的方式对字符串进行编码，例如通过在相邻字符上使用增量;这将花费不可忽略的工作量来完成工作。）

BKTree的替代品

1 个答案: