如何使用kd-tree来确定字符串相似度?

时间:2011-04-17 22:23:12

标签: python algorithm kdtree

我正在尝试利用k-最近邻居来解决字符串相似性问题,即给定字符串和知识库,我想输出与我给定的字符串类似的k个字符串。是否有任何教程解释如何利用kd树来有效地对字符串进行k近邻查找?字符串长度不超过20个字符。

1 个答案:

答案 0 :(得分:7)

可能是我大约一年前读过的最热门的博文之一:Levenstein Automata。看看那篇文章。它不仅提供了算法的描述,还提供了遵循的代码。从技术上讲,它不是kd-tree,但它与现实世界中可能遇到/使用的字符串匹配和字典校正算法密切相关。

他还有另一篇关于BK-trees的博客文章,这些文章在字符串和字符串查找模糊匹配方面要好得多。这是另一个包含BK-tree源代码的资源(这个我无法验证准确性或正确实现。)