一种字符串搜索算法,用于快速匹配大量未缩写字符串中的缩写?

时间:2010-02-21 03:48:26

标签: string abbreviation acronym

我在找到符合我要求的字符串匹配算法时遇到了很多麻烦。

我有一个非常大的字符串数据库,需要与任意缩写相匹配。字符串是一个实际的子字符串,其字符之间没有字母也应匹配,并且分数越高。

示例:如果要匹配的单词是“download”并且我搜索“down”,“ownl”,然后搜索“dl”,我将获得“down”的最高匹配分数,然后是“ownl”然后“dl”。

算法必须针对速度和要搜索的大量字符串进行优化,并且应该允许我拉回匹配项字符串的列表(如果我已添加“下载”和“上传”到在数据库中,搜索“load”应该返回两者)。记忆仍然很重要,但不如速度重要。

有什么想法吗?我已经对其中一些算法进行了大量研究,但我没有找到任何甚至触摸缩写,更不用说所有这些条件了!

1 个答案:

答案 0 :(得分:0)

我想知道Peter Norvig的spell checker能否以某种方式适应这个问题。

我还没有开始解决这个问题,但这是一个非常优雅的解决方案,值得了解。