相关百分比(searchstring在sourcestring中更“左”)

时间:2011-05-17 13:50:46

标签: c# sql-server algorithm clr relevance

任何人都可以帮助选择算法。

比较两个字符串并给出相关百分比(如果找到更多的字符串,则更多等级)。 也许合并两个算法 例如: 寻找"chocolate white quills" 我们有记录

CHOCOLATE, WHITE/DARK QUILLS [MONA LISA, 4 #/CS]
CHOCOLATE, WHITE QUILLS [SWISS CHALET, 900 GR BOX]
PASTRY INGR., CHOCOLATE QUILLS WHITE [SWISS CHALET FINE FO, 16 / 120 CT]

结果必须是这样的:

CHOCOLATE, WHITE QUILLS [SWISS CHALET, 900 GR BOX] | 0,1
CHOCOLATE, WHITE/DARK QUILLS [MONA LISA, 4 #/CS] | 0,2
PASTRY INGR., CHOCOLATE QUILLS WHITE [SWISS CHALET FINE FO, 16 / 120 CT] | 0,4
像你可以看到它不强,必须使用比较 我现在用JaroWinkler 现在结果像这样

CHOCOLATE, WHITE/DARK QUILLS [MONA LISA, 4 #/CS] | 0,3775
CHOCOLATE, WHITE QUILLS [SWISS CHALET, 900 GR BOX] | 0,3769
PASTRY INGR., CHOCOLATE QUILLS WHITE [SWISS CHALET FINE FO, 16 / 120 CT] | 0,3728

1 个答案:

答案 0 :(得分:0)

对于任何文本排名,您需要明确指出您要测量的内容。在你的例子中

CHOCOLATE, WHITE QUILLS [SWISS CHALET, 900 GR BOX] | 0,1
CHOCOLATE, WHITE/DARK QUILLS [MONA LISA, 4 #/CS] | 0,2
PASTRY INGR., CHOCOLATE QUILLS WHITE [SWISS CHALET FINE FO, 16 / 120 CT] | 0,4

为什么第一项排名低于第二项?我有点理解为什么底部的评级最高,因为它包含字符串中没有中间字符串的所有项目。提供更多细节,我们会尽力提供帮助。