我们希望在电子材料数据库(即导管,电缆等)上提供模糊搜索。问题在于,由于所有材料类型之间缺乏一致性,我们无法将尺寸拆分为文本描述中的单独字段,因为某些材料的评级不是尺寸。
我尝试过全文搜索和Levenshtein搜索算法的SQL CLR实现(用于帮助排名),但我的结果有点时髦(即由于排名不正确而无法正确排序)。
例如,如果搜索词是“3/4”ABCD Conduit“,我可能会按以下顺序找回几个不相关的结果:
1/2“管道 1/4“X 3/4”电缆 1/4“电缆束带 3/4“DFC导管T恤 3/4“ABCD管道 3/4“管道
我相信我已经把问题归结为这两个搜索算法没有考虑标点符号的相关性这一事实。数字。也就是说,在这样的搜索中,我希望大小优先于其余描述的任何模糊匹配,但我的结果并没有反映出来。
我的问题是:任何人都可以推荐更好的搜索算法或不同的方法,可能更适合搜索字母数字和组合的组合。标点字符?
答案 0 :(得分:0)
没关系......我的搜索工作正常,全文和Levenshtein的组合...我发现我将搜索词传递给了错误的参数...我的不好。
但是,我会就首选搜索方法提出任何建议......