我在数据库中有大约1000行。为了我的目的,我需要从DB中找到最相似的。
例如,DB有行:
英国
西班牙
英语
法国
法国
土耳其
乌克兰
.....
苏格兰
等等。
我拥有的源字符串,例如英文字母(它可以是任何字符串,但是大约95%它在数据库中没有相同的字符串,只有类似的字符串。)
我有一些算法可以找到最相似的。它基于these Wikipedia articles之一。
如何找到这1000行中的相似内容?遍历所有行 - 它很长? 也许创建索引?什么项目的索引?
我需要新的想法。
更新:
我没有说明它是经常执行的操作。它在50个以上的项目循环中进行。它是网络应用程序,我无法每次访问数据库。首先,我选择所有行,将其缓存在内存中,对于下一次迭代,我使用缓存中的数据。所以我需要在代码中完成它(C#.NET)