比较单词的算法(非按字母顺序)

时间:2009-05-19 16:45:48

标签: algorithm string search statistics pattern-matching

我需要为某个需求编写解决方案代码,我想知道是否有人熟悉可以实现它的现成库,或者可以指导我进行最佳实践。说明:

用户输入一个应该是几个固定选项之一的单词(我在列表中保存选项)。我知道输入必须在列表中的成员中,但由于它是用户输入,他/她可能犯了一个错误。我正在寻找一种算法,告诉我用户最可能的单词是什么意思。我没有任何上下文,我不能强迫用户从列表中选择(即他必须能够自由和手动输入单词)。

例如,说该列表包含“水”,“季度”,“啤酒”,“甜菜”,“地狱”,“你好”和“土豚”等字样。

解决方案必须考虑到不同类型的“正常”错误:

  • 速度拼写错误(例如加倍字符,丢弃字符等)
  • 键盘相邻字符拼写错误(例如“qater”表示“water”)
  • 非母语英语拼写错误(例如“季度”的“quater”)
  • 依旧......

显而易见的解决方案是逐个字母地比较,并给每个不同的字母,额外的字母和遗失的字母赋予“惩罚权重”。但是这个解决方案忽略了数千个“标准”错误,我肯定会在某处列出。我确信那里有针对所有案例的启发式方法,包括具体和一般情况,可能使用标准不匹配的大型数据库(我对数据量大的解决方案持开放态度)。

我在Python编码,但我认为这个问题与语言无关。

任何建议/想法?

7 个答案:

答案 0 :(得分:10)

您想了解Google如何执行此操作:http://norvig.com/spell-correct.html

编辑:有些人提到了定义用户给定单词和候选单词(levenshtein,soundex)之间的度量的算法。然而,这不是问题的完整解决方案,因为人们还需要数据结构来有效地执行非欧几里得最近邻搜索。这可以通过例如完成。封面树:http://hunch.net/~jl/projects/cover_tree/cover_tree.html

答案 1 :(得分:6)

常见的解决方案是计算输入和固定文本之间的Levenshtein distance。两个字符串的Levenshtein距离只是简单操作的数量 - 单个字符的插入,删除和替换 - 将其中一个字符串转换为另一个字符串。

答案 2 :(得分:2)

您是否考虑过通过语音来比较的算法,例如soundex?生成单词列表的soundex表示,存储它们,然后获取用户输入的soundex并找到最接近的匹配应该不会太难。

答案 3 :(得分:1)

寻找Bitap算法。它很适合您想要做的事情,甚至还附带了维基百科中的源代码示例。

答案 4 :(得分:1)

如果您的数据集非常小,只需将所有项目上的Levenshtein距离进行独立比较就足够了。但是,如果它更大,则需要使用BK-Tree或类似的索引系统。我链接的文章描述了如何在给定的Levenshtein距离内找到匹配,但是适应最近邻搜索是相当简单的(并留给读者做练习)。

答案 5 :(得分:0)

虽然它可能无法解决整个问题,但您可能需要考虑使用soundex算法作为解决方案的一部分。快速谷歌搜索“soundex”和“python”显示了该算法的一些python实现。

答案 6 :(得分:0)

尝试搜索“Levenshtein距离”或“编辑距离”。它计算将一个单词转换为另一个单词所需的编辑操作(删除,插入,更改字母)的数量。这是一种常见的算法,但根据问题,您可能需要针对不同类型的拼写错误使用不同权重的特殊内容。