最相似的字符串

时间:2014-12-06 23:18:31

标签: c# indexing similarity fuzzy-search

我在数据库中有大约1000行。为了我的目的,我需要从DB中找到最相似的。

例如,DB有行:

  

英国
  西班牙
  英语
  法国
  法国
  土耳其
  乌克兰
  .....
  苏格兰

等等。

我拥有的源字符串,例如英文字母(它可以是任何字符串,但是大约95%它在数据库中没有相同的字符串,只有类似的字符串。)

我有一些算法可以找到最相似的。它基于these Wikipedia articles之一。

如何找到这1000行中的相似内容?遍历所有行 - 它很长? 也许创建索引?什么项目的索引?

我需要新的想法。

更新:

我没有说明它是经常执行的操作。它在50个以上的项目循环中进行。它是网络应用程序,我无法每次访问数据库。首先,我选择所有行,将其缓存在内存中,对于下一次迭代,我使用缓存中的数据。所以我需要在代码中完成它(C#.NET)

0 个答案:

没有答案